Show simple item record

Contributions à l'apprentissage non supervisé à partir de flux de données massives en grande dimension : structuration, hashing et clustering

dc.contributorParis Sciences et Lettres
dc.contributor.advisorAtif, Jamal
hal.structure.identifier
dc.contributor.authorMorvan, Anne*
dc.date.accessioned2019-01-21T09:58:48Z
dc.date.available2019-01-21T09:58:48Z
dc.date.issued2018-11-12
dc.identifier.urihttps://basepub.dauphine.fr/handle/123456789/18396
dc.description.abstractfrCette thèse étudie deux tâches fondamentales d'apprentissage non supervisé: la recherche des plus proches voisins et le clustering de données massives en grande dimension pour respecter d'importantes contraintes de temps et d'espace.Tout d'abord, un nouveau cadre théorique permet de réduire le coût spatial et d'augmenter le débit de traitement du Cross-polytope LSH pour la recherche du plus proche voisin presque sans aucune perte de précision.Ensuite, une méthode est conçue pour apprendre en une seule passe sur des données en grande dimension des codes compacts binaires. En plus de garanties théoriques, la qualité des sketches obtenus est mesurée dans le cadre de la recherche approximative des plus proches voisins. Puis, un algorithme de clustering sans paramètre et efficace en terme de coût de stockage est développé en s'appuyant sur l'extraction d'un arbre couvrant minimum approché du graphe de dissimilarité compressé auquel des coupes bien choisies sont effectuées.fr
dc.language.isoen
dc.subjectApprentissage non superviséfr
dc.subjectRecherche des plus proches voisinsfr
dc.subjectFluxfr
dc.subjectApproximationfr
dc.subjectRéduction de dimensionfr
dc.subjectHachagefr
dc.subjectRésumés minimalistesfr
dc.subjectUnsupervised learningen
dc.subjectNearest neighbors searchen
dc.subjectStreamingen
dc.subjectClusteringen
dc.subjectApproximationen
dc.subjectDimensionality reductionen
dc.subjectHashingen
dc.subjectSketchingen
dc.subject.ddc005.7
dc.titleContributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clusteringen
dc.titleContributions à l'apprentissage non supervisé à partir de flux de données massives en grande dimension : structuration, hashing et clusteringfr
dc.typeThèse
dc.contributor.editoruniversityUniversité Paris Dauphine
dc.description.abstractenThis thesis focuses on how to perform efficiently unsupervised machine learning such as the fundamentally linked nearest neighbor search and clustering task, under time and space constraints for high-dimensional datasets. First, a new theoretical framework reduces the space cost and increases the rate of flow of data-independent Cross-polytope LSH for the approximative nearest neighbor search with almost no loss of accuracy.Second, a novel streaming data-dependent method is designed to learn compact binary codes from high-dimensional data points in only one pass. Besides some theoretical guarantees, the quality of the obtained embeddings are accessed on the approximate nearest neighbors search task.Finally, a space-efficient parameter-free clustering algorithm is conceived, based on the recovery of an approximate Minimum Spanning Tree of the sketched data dissimilarity graph on which suitable cuts are performed.en
dc.identifier.theseid2018PSLED033
dc.subject.ddclabelOrganisation des données
hal.author.functionaut


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record