[bull-ia] Thèse CIFRE IRIT- RENAULT : Apprentissage profond pour l’accès aux textes et bases de connaissances

===========================
Thèse CIFRE IRIT- RENAULT : Apprentissage profond pour l’accès aux
textes et bases de connaissances
===========================

Date limite de candidature : 30 juin 2018

Entreprise : Renault
Encadrant : François-Paul Servant (francois-paul.servant@renault.com)
Laboratoire d’accueil : Institut de Recherche en Informatique de
Toulouse (IRIT), équipe IRIS
Encadrants : Lynda Tamine-Lechani (lynda.lechani@irit.fr), José Moreno
(jose.moreno@irit.fr)

Contexte
========
A travers ce projet de thèse, l’ambition de RENAULT est d’accompagner
ses services opérationnels dans la valorisation de son capital
documentaire, lequel est constitué :
1) de textes (avec deux typologies : documentation technique utilisant
des vocabulaires contrôlés d’une part, verbatim informels d’autre part),
2) de ressources structurées : lexiques, thesaurus, graphes de
connaissances.

Plus précisément, l’enjeu est de développer des solutions robustes et
efficaces qui permettent de fournir des points d’accès unifiés à ce
capital documentaire, et susceptibles de satisfaire des besoins variés
selon le profil des utilisateurs ou la nature des applications : outils
pour le data scientist confronté à une problématique de Machine Learning
prenant des données textuelles en entrée, aide à la recherche
d’information dans un corpus multilingue pour un opérationnel
s’exprimant préférentiellement dans sa langue maternelle – pour ne
donner que deux exemples. Un des objectifs est l’amélioration des
échanges entre les acteurs des différents secteurs métiers (Ingénierie,
Commercial, Après-vente etc.), et entre Renault et ses partenaires
(Alliance Renault-Nissan-Mitsubishi, fournisseurs, etc.)

Certaines particularités du contexte automobile rendent la tâche
difficile (et intéressante) :
– le niveau de technicité du domaine, et la richesse de son vocabulaire
– la diversité des vocabulaires et des ressources linguistiques, en
fonction des différents secteurs métiers de l’entreprise (qui utilisent
des « dialectes » quelque peu différents), avec pour corollaire
l’ambiguïté des mentions aux entités présentes dans les textes
– le nombre des langues maternelles des locuteurs

Objectifs de la thèse et défis scientifiques
============================================
(Terminologie : dans la suite, nous désignerons par « ressources
structurées externes », ou « ressources externes » les lexiques,
thésaurus, graphes de connaissance dont on dispose et qui constituent
les référentiels privilégiés « d’entités »)
Le projet de thèse cible deux principaux objectifs :
1) apprentissage profond de représentations latentes des différents
granules d’information (mot, entité, document) et
2) exploitation de ces représentations apprises pour des tâches en
recherche d’information (RI) ou en analyse du langage naturel (TALN)
comme la liaison référentielle d’entités.
Pour atteindre ces objectifs, nous nous orientons vers la combinaison de
la sémantique distributionnelle, particulièrement issue des approches
basées sur l’apprentissage profond (Deep Learning), et de la sémantique
symbolique apportée par les connaissances établies dans les ressources
externes (entités et relations entre entités).

Du point de vue de la représentation, nous nous inscrivons dans la
lignée de travaux récents qui se basent sur la régularisation de
représentations neuronales augmentées par des ressources [Faruqui2014 ;
Yu2014 ; Wang2014 ; Yamada2016]. L’hypothèse correspondante, c’est que
les représentations apprises sont interprétables si elles sont alignées
avec des entités issues des ressources externes. On distingue les
techniques de représentations basées sur l’apprentissage tardif
[Faruqui2014 ; Yu2014] qui ‘régularisent’ a posteriori les
représentations latentes des mots associés à des entités de sorte que
les représentations d’entités obtenues dans l’espace latent sont
d’autant plus proches qu’elles sont associées à des entités reliées
sémantiquement dans la ressource externe. D’autres travaux utilisent
plutôt un alignement hâtif, comme par exemple [Wang2014 ; Yamada2016 ;
Nguyen2018] qui utilisent des fonctions objectifs basées sur des
distributions de probabilités jointes entre mots et entités en
considérant éventuellement les relations entre entités ou alors la
combinaison de fonction objectifs liées aux mots et aux entités.
L’optimisation de ces fonctions produit de façon inhérente des
représentations jointes de mots et d’entités.
Du point de vue de l’exploitation, ces représentations et leurs versions
étendues aux phrases, textes, sont exploitables dans une tâche de RI
[Nguyen2018], ou de TALN comme l’identification mentions d’entités
[Moreno2017].
Bien que des représentations distributionnelles existent pour les mots
et les textes, les ressources structurées et leur combinaison, aucun
travail n’aborde le problème de leur représentation en considérant leur
sens sous la contrainte de l’association sens-entité en présence de
multiples ressources structurées, ni à la structuration
multi-relationnelles (plusieurs types de relations entre entités) des
entités présentes naturellement dans ces ressources. Des progrès récents
dans le domaine des représentations des bases de connaissances ont été
effectués, cependant plusieurs approximations ont été faites pour
parvenir aux premiers résultats. Par exemple, un des premiers travaux
dans cette direction utilise la géométrie de Poincaré pour représenter
la hiérarchie dans les ressources [Nickel2017], mais ignore complètement
la représentation des relations entre entités. Ces particularités sont
omniprésentes dans les bases de connaissances largement utilisées
actuellement, dont celles considérées chez Renault.
Dans ce projet de thèse nous envisageons la définition de nouvelles
architectures neuronales profondes capables d’apprendre la
compositionalité du sens (semantic compositionality) en combinant le
contexte local (texte) et les contextes globaux (multiples ressources)
pour des tâches en RI et en TALN.

Un retour d’expérience issu de nos précédents travaux [Nguyen2017 ;
Moreno2017 ; Nguyen2018], nous permet d’anticiper sur les difficultés
qui suivent et envisager les pistes de solutions possibles associées :
1) Du point de vue de l’architecture, il serait pertinent d’explorer des
réseaux de la classe des réseaux antagonistes génératifs (Generative
Adversarial Network GAN). A titre d’exemple, pour un objectif de
représentation, le réseau génératif serait destiné à apprendre les
liaisons référentielles mot-entité, tandis que le réseau discriminant
aurait pour objectif de distinguer les liaisons pertinentes des liaisons
non pertinentes selon le contexte du document (mots voisins, relations
avec les mots voisins, etc.). Une réflexion sur la représentation des
entrées utilisées dans ce type de réseau est également à explorer en
utilisant des algorithmes de génération d’arbres de dépendance des
mots/entités qui tient compte des relations présentes dans chaque
ressource ;
2) Du point de vue de la fonction de coût, nous nous intéressons en
particulier à des fonctions avec des objectifs complémentaires. D’un
côté pour les textes, les fonctions de coût sont basées sur les
logarithmes des probabilités conditionnelles entre le mot à prédire et
son contexte. De l’autre côté, les méthodes utilisées pour les bases de
connaissances ont une préférence pour les fonctions type Hinge adaptées
à la classification d’entités. Pour notre part, nous explorerons leur
mise en interactions pour répondre à notre double objectif en
définissant des opérateurs de combinaison appropriés ;
3) Du point de vue de l’apprentissage du réseau, la variabilité des
volumes de données annotées avec les ressources considérées et leur
insuffisance selon les ressources, ne permettant pas de garantir la
convergence de la fonction de coût à plus forte raison dans le cas des
réseaux de type GAN. Ceci nous oriente vers l’extension des méthodes
basées sur l’apprentissage faible (weak supervision) [Deghani2017] entraînés respectivement avec des données annotées effectives et des
données simulées. Une extension possible consisterait à définir des
méta-algorithmes d’optimisation de la fonction de coût paramétrables en
fonction de la distribution des mentions d’entités présentes dans les
textes annotés (effectivement ou faiblement) et associés aux différentes
ressources considérées.

[Deghani2017] Mostafa Dehghani, Hamed Zamani, Aliaksei Severyn, Jaap
Kamps, W. Bruce Croft. Neural Ranking Models with Weak
Supervision. SIGIR 2017: 65-74
[Faruqui2014] Faruqui M., Dodge J., Jauhar S. K., Dyer C., Hovy E.,
Smith N. A., « Retrofitting Word Vectors to Semantic Lexicons », NAACL, 2014
[Moreno2017] Moreno, J. G., Besançon, R., Beaumont, R., D’hondt, E.,
Ligozat, A. L., Rosset, S., Grau, B. (2017, Combining word and entity
embeddings for entity linking. In Extended Semantic Web Conference
(ESWC) pp. 337-352, 2017
[Nickel2017] Nickel, M., & Kiela, D. Poincaré embeddings for learning
hierarchical representations. In Advances in Neural Information
Processing Systems (pp. 6341-6350), 2017.
[Nguyen2017] Nguyen, G. H., Tamine, L., Soulier, L., & Souf, N. (2017,
June). Learning Concept-Driven Document Embeddings for Medical
Information Search. In Conference on Artificial Intelligence in Medicine
in Europe (pp. 160-170). Springer, Cham
[Nguyen2018] Gia Nguyen, Lynda Tamine, Laure Soulier, Nathalie Souf, A
Tri-Partite Neural Document Language Model for Semantic Information
Retrieval. In Extended Semantic Web Conference (ESWC), 2018
[Yu2014] Yu M., Dredze M., « Improving Lexical Embeddings with
Semantic Knowledge », ACL, p. 545- 550, 2014
[Wang2014] Wang Z., Zhang J., Feng J., Chen Z., « Knowledge Graph and
Text Jointly Embedding », EMNLP, p. 1591- 1601, 2014
[Yamada2016] Yamada, I., Shindo, H., Takeda, H., Takefuji, Y., « Joint
Learning of the Embedding of Words and Entities for Named Entity
Disambiguation », CoNLL, p. 250-259, 2016

Valeur ajoutée de l’offre
=========================
Vous serez intégré dans deux équipes avec des profils académique et
industriel : l’équipe IRIS de l’IRIT reconnue pour ses activités de
recherche dans le domaine de l’accès aux textes et leur synthèse avec
une orientation vers l’utilisation des technologies Deep Learning et
l’équipe « Intelligence Artificielle Appliquée » au sein de la Direction
de l’Informatique RENAULT. Vous serez embauché en CDD par RENAULT, qui
est un leader mondial de la construction automobile, avec un salaire
brut de 30690 euros. Vous manipulerez des données issues de campagnes
d’évaluation internationales mais également des données réelles fournies
par RENAULT. Les résultats des travaux de thèse seront valorisés d’une
part par des publications scientifiques, d’autre part par la perspective
de leur exploitation pour répondre à des problèmes opérationnels du
domaine automobile chez RENAULT.
Profil demandé
* Formation : BAC + 5, école d’ingénieur ou Master en informatique ou
mathématiques appliquées ou mathématiques-informatique
* Compétences :
– des bonnes connaissances en apprentissage statistique et
statistiques sont fortement souhaitées (des connaissances en
apprentissage par réseaux de neurones sont une valeur ajoutée) ;
– des compétences en programmation sont nécessaires : python avec
bibliothèques comme scikit-learn, keras, torch, tensorflow ; c++ (CNTK)
interfacé avec python et ses bibliothèques ;
– des connaissances approfondies en algorithmique (B-Trees, Fibonacci
Heaps, Disjoint Sets) ;
– des capacités de communication et de rédaction en anglais sont
également fortement souhaitées (Noter que RENAULT exige un score minimum
de 750 à l’examen du TOEIC pour toute embauche).
* Expérience souhaitée : toute forme d’expérience professionnelle au
travers d’un stage, réalisation ou projet est un atout complémentaire.

Candidature
===========
Le dossier de candidature comporte les pièces suivantes :
– CV,
– relevé de notes selon profil M1-M2 ou 3 dernières années de l’école
d’ingénieurs (avec indication sur le classement si possible),
– lettre de motivation,
– lettre(s) de recommandation dont au moins une lettre établie par un
référent universitaire.

Les candidats potentiels seront invités pour un entretien avec les
encadrants.

Le dossier de candidature est à adresser à :
francois-paul.servant@renault.com, lynda.lechani@irit.fr,
jose.moreno@irit.fr


Prof. Lynda Tamine Lechani
Université Paul Sabatier (UPS)
Institut de Recherche en Informatique de Toulouse (IRIT)
118 Route de Narbonne, 31062 Toulouse Cedex 9
Tel : (+33) (0)5 61 55 64 78 e-mail : Lynda.Lechani@irit.fr
http://www.irit.fr/~Lynda.Tamine-Lechani/

———————————————————————
Desinscription: envoyez un message a: bull-ia-unsubscribe@gdria.fr
Pour obtenir de l’aide, ecrivez a: bull-ia-help@gdria.fr