• xmlui.mirage2.page-structure.header.title
    • français
    • English
  • Aide
  • Connexion
  • Langue 
    • Français
    • English
Consulter le document 
  •   Accueil
  • LAMSADE (UMR CNRS 7243)
  • LAMSADE : Thèses
  • Consulter le document
  •   Accueil
  • LAMSADE (UMR CNRS 7243)
  • LAMSADE : Thèses
  • Consulter le document
JavaScript is disabled for your browser. Some features of this site may not work without it.

Afficher

Toute la baseCentres de recherche & CollectionsAnnée de publicationAuteurTitreTypeCette collectionAnnée de publicationAuteurTitreType

Mon compte

Connexion

Enregistrement

Statistiques

Documents les plus consultésStatistiques par paysAuteurs les plus consultés
Thumbnail

Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering

Contributions à l'apprentissage non supervisé à partir de flux de données massives en grande dimension : structuration, hashing et clustering

Morvan, Anne (2018), Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering, thèse de doctorat préparée sous la direction de Atif, Jamal, Université Paris Dauphine

Voir/Ouvrir
2018PSLED033.pdf (18.49Mb)
Type
Thèse
Date
2018-11-12
Métadonnées
Afficher la notice complète
Auteur(s)
Morvan, Anne
Sous la direction de
Atif, Jamal
Résumé (FR)
Cette thèse étudie deux tâches fondamentales d'apprentissage non supervisé: la recherche des plus proches voisins et le clustering de données massives en grande dimension pour respecter d'importantes contraintes de temps et d'espace.Tout d'abord, un nouveau cadre théorique permet de réduire le coût spatial et d'augmenter le débit de traitement du Cross-polytope LSH pour la recherche du plus proche voisin presque sans aucune perte de précision.Ensuite, une méthode est conçue pour apprendre en une seule passe sur des données en grande dimension des codes compacts binaires. En plus de garanties théoriques, la qualité des sketches obtenus est mesurée dans le cadre de la recherche approximative des plus proches voisins. Puis, un algorithme de clustering sans paramètre et efficace en terme de coût de stockage est développé en s'appuyant sur l'extraction d'un arbre couvrant minimum approché du graphe de dissimilarité compressé auquel des coupes bien choisies sont effectuées.
Résumé (EN)
This thesis focuses on how to perform efficiently unsupervised machine learning such as the fundamentally linked nearest neighbor search and clustering task, under time and space constraints for high-dimensional datasets. First, a new theoretical framework reduces the space cost and increases the rate of flow of data-independent Cross-polytope LSH for the approximative nearest neighbor search with almost no loss of accuracy.Second, a novel streaming data-dependent method is designed to learn compact binary codes from high-dimensional data points in only one pass. Besides some theoretical guarantees, the quality of the obtained embeddings are accessed on the approximate nearest neighbors search task.Finally, a space-efficient parameter-free clustering algorithm is conceived, based on the recovery of an approximate Minimum Spanning Tree of the sketched data dissimilarity graph on which suitable cuts are performed.
Mots-clés
Apprentissage non supervisé; Recherche des plus proches voisins; Flux; Approximation; Réduction de dimension; Hachage; Résumés minimalistes; Unsupervised learning; Nearest neighbors search; Streaming; Clustering; Approximation; Dimensionality reduction; Hashing; Sketching

Publications associées

Affichage des éléments liés par titre et auteur.

  • Vignette de prévisualisation
    Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées 
    Haddad, Raja (2016-11) Thèse
  • Vignette de prévisualisation
    Extension des Programmes Génétiques pour l’apprentissage supervisé à partir de très larges Bases de Données (Big data) 
    Hmida, Hmida (2019-10-23) Thèse
  • Vignette de prévisualisation
    Approches nouvelles des modèles GARCH multivariés en grande dimension 
    Poignard, Benjamin (2017-06-15) Thèse
  • Vignette de prévisualisation
    Algorithmes efficaces pour l’apprentissage de réseaux de préférences conditionnelles à partir de données bruitées 
    Labernia, Fabien (2018-09-27) Thèse
  • Vignette de prévisualisation
    La relation supérieure comme une capacité dynamique dans des restaurants de petite et de moyenne tailles au Brésil, en France et au Maroc : une analyse à partir des processus d'apprentissage et contrôle de risques stratégiques 
    Candido-Custodio, Juliana (2013-04) Thèse
Dauphine PSL Bibliothèque logo
Place du Maréchal de Lattre de Tassigny 75775 Paris Cedex 16
Tél. : 01 44 05 40 94
Contact
Dauphine PSL logoEQUIS logoCreative Commons logo