[bull-ia] Post-Doc TALN : coréférence et apprentissage automatique

BonjourMerci de diffuser cette annonce. Bien à vous

Jean-Yves Antoine

————————————————————————————————————————————-
PROPOSITION DE CONTRAT POST-DOCTORAL
Apprentissage automatique pour la résolution des coréférences en français – Application au domaine de l’analyse du discours
Blois (LIFAT) ou Orléans (LIFO) – septembre 2019 / février 2021
————————————————————————————————————————————-

Les labotatoires LIFO (U. d’Orléans) et LIFAT (U. Tours, site de Blois) mènent des recherches dans le domaine du Traitement Automatique des Langues Naturelles dans le cadre de leurs équipes respectives « Contraintes et Apprentissage » (CA) et « Bases de Données et Traitement Automatique des Langues » (BDTLN).

Ils recrutent un ingénieur de recherche dans le cadre du projet ANR TALAD, auquel sont également associés les laboratoires AGORA (Evry), Praxiling (Montpellier) et ERTIM (INALCO Paris)

Le projet TALAD est une action de recherche pluridisciplinaire qui réunit des analystes du discours et des spécialistes du traitement automatique des langues naturelles autour de la problématique de la détection et de l’analyse des nominations dans le discours médiatique ou politique. Les nominations sont des mots émergents du langage dont le sens n’est pas encore stabilisé et qui font l’objet de tentatives de colorations par les différents groupes d’opinion (pensons aux débats récents sur l’usage de la nomination « migrant » en place de termes comme « immigré », « émigré » ou « réfugié »). L’intervention des laboratoires LIFO et LIFAT dans ce cadre est d’élaborer une chaîne de traitement qui permettait de trouver toutes les variations d’expression d’une nomination dans un texte donné en proposant à l’analyste du discours l’ensemble des mentions coréférentes avec un terme représentation une nomination candidate.

Le LIFO et le LIFAT disposent déjà d’une solide expérience dans le domaine de la coréférence. Ils ont ainsi développé le corpus ANCOR qui est, avec le corpus DEMOCRAT qui sera bientôt accessible, le plus grand corpus francophone annoté en coréférence. En collobaration avec le laboratoire LATTICE, ces laboratoires ont également finalisé une première chaîne de traitement faisant appel aux techniques d’apprentissage automatique pour la résolution des coréférence. Le travail proposé dans le cadre de ce contrat consiste précisément à optimiser ce premier prototype et à l’adapter au cadre applicatif de la détection des nominations. Dans un second temps, l’accent des recherches menées dans le cadre de ce contrat portera sur une focalisation accrue sur la question de la résolution des coréférences indirectes (aussi appelées infidèles) du type « le peintre … l’artiste », qui sont essentielles pour la détection des variations nominales et n’ont fait l’objet que de très peu d’attention de la part de la communauté scientifique car elle ne représente quantitativement qu’une part minoritaire, mais pourtant essentielle, des relations de coréférence. Cette partie des travaux aura recours à des données liées (Linked-Open Data) et pourta être étendue pour une application à l’anglais.

* MISSION ———————————————————————————————————————–

Une première chaîne de résolution des coréférences a été développé par les laboratoires LIFAT et LIFO, dans le cadre de plusieurs stages successifs. Ce prototype fait appel à différentes techniques relevant de l’apprentissage automatique (réseaux de neurones et classifieurs SVM) et a été entrainée sur le corpus ANCOR. Cette chaîne de traitement intègre des briques logicielles libres (Spacy, UDPipe) pour le calcul de traits descriptifs d’ordre morphologique ou syntaxique ainsi que des modules de traitement (détection des mentions référentielles et des entités nommées) développées par des partenaires (LATTICE et ERTIM). Enfin, un premier démonstrateur très sommaire (interface d’interrogation et sorties de type concordancier) a été développé pour permettre à un utilisateur analyste du discours d’utiliser l’outil.

L’objectif de la mission proposée est de reprendre cette première chaîne de traitement pour l’optimiser, l’adapter à la problématique du projet, attaquer la question centrale et sensible de la résolution des coréférence indirectes et éventuellement la généraliser à l’anglais

– T0 – T0+2 – Découverte de la problématique et développement d’une interface conviviale complète en intégrant les besoins des analyses du discours

– T0+2 – T0+9 – Optimisation de la chaîne de traitement par intégration éventuelles de briques de pré-traitement présentant de meilleurs performances,
développement d’une stratégie améliorée de sélection des mentions référentielles en sortie d’un détecteur neuronal,
travail d’optimisation des traits et des hyper-paramètres du détecteur de relations de coréférence à base de classifieur SVM
et comparaison avec un détecteur neuronal développé par le LATTICE

– T0+9 – T0+15 – Premiers retours d’expérience avec les partenaires analystes du discours, recherche sur la résolution spécifiques
des coréférences indirectes par utilisation de données liées

– T0+15 – T0+18 – Optimisation et extension éventuelle à l’anglais.

* REMUNERATION ET CONDITIONS D’EXERCICE ——————————————————————————————–

– La personne recrutée prendra ses fonctions en septembre 2019. La durée de recrutement sera de 18 mois

– Elle s’intégrera dans une équipe projet réunissant les laboratoires LIFAT et LIFO.
Le lieu d’exercice de l’activité sera, au choix de la personne recrutée, la ville de Blois ou la ville d’Orléans sur la durée de la mission.

– Le niveau de recrutement sera celui d’un ingénieur de 2° classe 5° échelon, soit 1916 Euros/net par mois (à vérifier avec évolution des coûts).

* PROFIL RECHERCHE ——————————————————————————————————————

La personne recherchée sera titulaire d’un doctorat en informatique dans le domaine du traitement automatique des langues,
ou à défaut aura soutenu une thèse en sciences du langage mais disposera de compétences informatiques solides lui permettant
de mener à bien les missions d’ingénierie logicielle qui lui seront confiées.

Avoir une expérience dans le domaine de l’apprentissage automatique sera un plus très apprécié, mais nous sommes également à la recherche
d’une personne qui dispose d’un intérêt marqué pour le fait linguistique.

* CONTACT – DEPOT DE CANDIDATURE —————————————————————————————————

Les personnes intéressées sont invitées à contacter les deux responsables scientifiques de cette action de recherche :

– Anaïs Lefeuvre-Halftermeyer (LIFO, anais.halftermeyer@univ-orleans.fr)
– Jean-Yves Antoine (LIFAT, Jean-Yves.Antoine@univ-tours.fr)

N’hésitez pas à nous contacter pour tout renseignement.

Le dépôt de candidature se feront auprès de ces deux personnes, sur la forme d’un curriculum long résumant vos activités
de recherche, d’une lettre de motivation et éventuellement de lettres de recommandation.

* Date limite de réception des dossiers : 17 juin 2019
* Sélection des dossiers pour un entretien : 19 ou 20 juin 2019
* Entretiens et décision : semaine du 24 juin 2019.
* Démarrage du contrat : 1er septembre ou 1er octobre 2019.

[bull-ia] Post-Doc TALN : coréférence et apprentissage automatique

Post navigation