Offre de thèse : dispersion des données en analyse sémantique de domaines de spécialité.
Spécialités : traitement automatique des langues, sémantique distributionnelle, plongements de mots, terminologie
La thèse s’inscrit dans le cadre du projet ADDICTE (Analyse distributionnelle en domaine de spécialité) financé par l’ANR. L’objectif du projet est de proposer une solution opérationnelle à l’analyse sémantique distributionnelle [3,4] en domaine de spécialité pour construire des représentations sémantico-conceptuelles du domaine qui soient utilisables à la fois en extraction d’information et dans des applications documentaires comme l’indexation de documents.
La thèse, qui sera basée à Nantes, portera sur la mise en oeuvre de techniques de généralisation pour pallier la dispersion des données en analyse sémantique de domaines de spécialité [1,2,5]. L’objectif à terme est de pouvoir disposer d’une représentation sémantique distribuée adaptée aux caractéristiques singulières des domaines de
spécialités. Cette thèse se structurera selon trois axes : sélection des unités linguistiques caractéristiques du domaine, construction de représentations distribuées des unités terminologiques et généralisation de ces unités.
Prérequis :
– Master 2 ou un diplôme d’ingénieur en informatique.
– Connaissances en TAL et en apprentissage automatique.
– Compétences solides en programmation (Python) et connaissance de Linux.
– Bonne maîtrise du français et de l’anglais.
– Bonnes capacités rédactionnelles et de présentation orale.
Salaire mensuel de 1400 euros net.
Pour présenter une candidature, veuillez envoyer un CV, une lettre de motivation, le relevé de notes de licence (L3) et master (M1, M2 même provisoire), et les contacts de deux référents à Emmanuel.Morin@univ-nantes.fr et Thierry.Hamon@limsi.fr.
Date limite de candidature : 30-Mai-2018
Références
[1] Adrien Bougouin, Florian Boudin, and Beatrice Daille. Keyphrase annotation with graph co-ranking. In Proceedings of the 26th International Conference on Computational Linguistics (COLING), pages 2945–2955, Osaka, Japan, 2016.
[2] Amandine Périnet and Thierry Hamon. Analyse distributionnelle appliquée aux textes de spécialité: Réduction de la dispersion des données par abstraction des contextes. Traitement Automatique des Langues (TAL), 56(2):77–102, 2015
[3] John Rupert Firth. A synopsis of linguistic theory 1930–1955. In Studies in Linguistic Analysis (special volume of the Philological Society), pages 1–32. Blackwell, Oxford, 1957.
[4] Zellig Sabbetai Harris. Mathematical Structures of Language. Interscience Publishers, 1968.
[5] Magnus Sahlgren and Alessandro Lenci. The effects of data size and frequency range on distributional semantic models. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 975–980, Austin, TX, USA, 2016.