[bull-ia] Offre de thèse : Clustering adaptatif (semi-supervisé) de données économiques hétérogènes

Offre de thèse CIFRE
Clustering adaptatif (semi-supervisé) de données économiques hétérogènes

Contexte scientifique

À l’ère du déluge des données, le clustering interactif (ou plus largement les
techniques de classification semi-supervisée ou encore basée sur un
apprentissage actif) suscite de plus en plus d’attention dans les communautés
de la fouille des données (en particulier l’analyse exploratoire des données)
et de l’apprentissage automatique. L’objectif ciblé est de faire converger les
résultats d’un clustering vers un objectif plus ou moins bien formalisé en
utilisant une supervision limitée. En général, le clustering semi-supervisé
exploite ainsi un nombre limité d’exemples (étiquetés), ou un ensemble de
contraintes (un sous-ensemble d’objets doivent impérativement être associés
dans un même cluster (ou au contraire doivent être affectés dans les clusters
distincts), etc. La complexité algorithmique est l’un des freins au
développement des approches de clustering (complexité souvent quadratique).
Les approches récentes veillent à maîtriser cette complexité. C’est le cas par
exemple pour l’approche “éclatement/regroupement” associée à un clustering
exploratoire proposée dans [Cutting et al., 2017].

Les travaux sur le clustering interactif exploitent des informations
supervisées qui se répartissent dans l’une des trois orientations suivantes :

1) Les approches basées sur la spécification de contraintes : on retrouve dans
cette catégorie les méthodes Kmeans, kernel-Kmeans, clustering hiérarchique,
allocation de Dirichlet Latent (LDA) et dérivées [Archambeau et al., 2014],
les méthodes de clustering de graphe, le co-clustering, etc.

2) Les approches basées apprentissage de métrique (metric learning) qui
adaptent la mesure de similarité utilisée par l’algorithme de classification.
Lorsque, par exemple, seules les contraintes par paires sont disponibles
(telles que les contraintes «must-link» ou «cannot-link») [Basu et al., 2009],
[Yin et al., 2010] ou [Yin et al., 2012], les approches basées sur des graphes
peuvent s’avérer très efficaces. Par exemple, [Kang et al., 2017] développent
un algorithme permettant de clusteriser un graphe (de similarité) en tenant
compte des structures locales et globales du manifold sur lequel se
répartissent les données.

3) Les approches mixtes : dans [Dhillon et al., 2004] par exemple, des
approches exploitant des représentations vectorielles et des graphes sont
unifiées en utilisant un algorithme de type kernel k-means pondéré. Faisant
suite à de nombreux travaux sur l’apprentissage de métrique comme dans
[Schultz et Joachims, 2004], l’intégration des contraintes par paires et de
l’apprentissage de distance est développée dans un cadre de classification K-
means par [Bielenko et al. 2004]. Une approche d’optimisation est alors
adoptée permettant l’intégration de contraintes et de paramètres métriques
dans une seule fonctionnelle.
Objectifs de la thèse

Les travaux de thèse proposés concernent le clustering adaptatif (incluant un
processus de semi-supervision) de données économiques hétérogènes. Il s’agit
de concevoir une chaîne de traitement des données construite autour d’un
clustering interactif qui permet :

d’exploiter des outils d’extraction d’informations (structurées ou semi-
structurées) supervisées de type entité nommées (le nom d’une entreprise,
d’une commune ou d’une ville), ou des relations entre concepts (relation
associant des lots à des budgets, ou associant des lots et des compétences par
exemple), ou non supervisés (type patterns séquentiels) ;

de développer des méthodes de plongement de mots adaptées à la tâche abordée,
dans un contexte apprentissage de métrique ;

de mener une analyse propre à une problématique (spécifiée sous une forme
textuelle), par exemple une étude de marché, ou l’évolution temporelle d’un
secteur d’activité;

de mixer des sources de données externes hétérogènes (bases d’appels d’offres
type TED1, INSEE, réseaux sociaux, blogs, etc.) ;

de développer des indicateurs pour la problématique étudiée ;

d’exploiter des outils graphiques pour la visualisation des données,
l’affichage de tendances, l’affichage de résultats d’analyses temporelles et
spatiales, etc.

Les travaux cibleront des approches de clustering mixtes, i.e. des approches
qui seront susceptibles d’exploiter des contraintes couplées à des techniques
d’apprentissage de métrique. Des approches de type apprentissage profond sont
bien entendues dans le périmètre des travaux ciblés. En particulier, des
architectures neuronales permettant d’obtenir un plongement des données dans
un espace métrique (plongement vectoriel) en prenant en compte certains types
de contraintes (à identifier dans le cours de la thèse) seront mises en œuvre.
D’autres approches intégrant des principes d’optimisation plus directe
associés à des approches de type apprentissage automatique feront également
l’objet d’une étude qui pourront être comparées à la précédente.
(Note : Ces travaux s’inscrivent dans le cadre d’un partenariat initié en 2015
entre l’entreprise OctopusMind (ex Jurismarchés) et l’équipe EXPRESSION du
laboratoire de recherche IRISA. Ce partenariat a fait l’objet d’une thèse de
doctorat centrée sur les espaces de représentation (plongements des documents
dans des espaces métriques) et la recherche par similarité pour la fouille
d’appels d’offres.)
Profil et compétences recherchées

Niveau master ou école d’ingénieur avec des compétences en informatique et
traitement des données. Des connaissances en intelligence artificielle
(machine learning), fouille de texte, TALN et traitement statistiques des
données seront appréciées.
Conditions

La thèse sera effectuée en partie dans les locaux de l’entreprise OtopusMind
(ex Jurismarchés) à Nantes, et en partie dans les locaux de l’IRISA à Vannes.
– L’Entreprise OtopusMind2, éditrice de la plateforme J360.info3. de veille
économique, apportera son expertise métier (équipe de veille et équipe de
développement logiciel),
– L’équipe EXPRESSION4 du Laboratoire IRISA, site de Vannes apportera son
savoir-faire en matière de recherche dans le domaine de la fouille de texte et
de machine learning. L’accès à des moyens de calcul distribués sera assuré par
l’équipe et l’UMR IRISA.

Rémunération : 25116 € brut annuel.
Limite de soumission : 15 Avril 2019
Démarrage de la thèse : dès que possible

Contacts :
OctopusMind : Frédéric Oliveau/Alexandre Garel :
{f.oliveau, a.garel} @OctopusMind.com
IRISA : Pierre-François Marteau/Nicolas Béchet :
{pierre-francois.marteau,nicolas.bechet}@irisa.fr

Références

[Archambeau et al., 2014] Cedric Archambeau, Balaji Lakshminarayanan,
Guillaume Bouchard. Latent IBP compound Dirichlet Allocation. IEEE
Transactions on Pattern Analysis and Machine Intelligence, IEEE, pp. 1, page
1, January 2014.

[Bielenko et al., 2004] M. Bilenko, S. Basu, and R. J. Mooney. 2004.
Integrating constraints and metric learning in semi-supervised clustering. In
Proceedings of the twenty-first international conference on Machine learning
(ICML ’04). ACM, New York, NY, USA, 2004.

[Cutting et al., 2017] Douglass R. Cutting, David R. Karger, Jan O. Pedersen,
and John W. Tukey. 2017. Scatter/Gather: A Cluster-based Approach to Browsing
Large Document Collections. SIGIR Forum 51, 2 (August 2017), 148-159.

[Dhillon et al., 2004] I. Dhillon, Y. Guan, and B. Kulis. 2005. A fast kernel-
based multilevel algorithm for graph clustering. In Proceedings of the
eleventh ACM SIGKDD international conference on Knowledge discovery in data
mining (KDD ’05). ACM, New York, NY, USA, 629-634.

[Kang et al., 2017] Z. Kang, C. Peng and Q. Cheng, « Clustering with Adaptive
Manifold Structure Learning, » 2017 IEEE 33rd International Conference on Data
Engineering (ICDE), San Diego, CA, 2017, pp. 79-82.

[Schultz and Joachims, 2004] M. Schultz and T. Joachims. « Learning a distance
metric from relative comparisons. » Advances in neural information processing
systems (NIPS) (2004), MIT Press, 2004, 41-48.

[Yin et al., 2010] X. Yin, S. Chen, E. Hu, and D. Zhang. Semi-supervised
Clustering with Metric Learning: An Adaptive Kernel Method Pattern Recogn.,
Elsevier Science Inc., 2010, 43, 1320-1333

[Yin et al., 2012] X. Yin, T. Shu, and Q. Huang. Semi-supervised fuzzy
clustering with metric learning and entropy regularization Knowledge-Based
Systems, 2012, 35, 304 – 311

———————————————————————
Desinscription: envoyez un message a: bull-ia-unsubscribe@gdria.fr
Pour obtenir de l’aide, ecrivez a: bull-ia-help@gdria.fr