Show simple item record

Inférence statistique sur des variétés inconnues

dc.contributor.advisorHoffmann, Marc
dc.contributor.authorBerenfeld, Clément
dc.date.accessioned2022-10-28T09:35:40Z
dc.date.available2022-10-28T09:35:40Z
dc.date.issued2022-09-20
dc.identifier.urihttps://basepub.dauphine.psl.eu/handle/123456789/23077
dc.description.abstractfrEn statistique, l’hypothèse des variétés suppose que les données observées se répartissent autour de structures de faible dimension, appelées variétés. Ce postulat permet d’expliquer pourquoi les algorithmes d’apprentissage fonctionnent bien même sur des données en grande dimension, et est naturellement satisfait pour de nombreux jeux de données issus de la vie réelle. Nous présentons dans cette thèse quelques contributions aux problèmes d’estimation de deux quantités sous cette hypothèse : la densité de la distribution sous-jacente, et le reach de son support. Pour l’estimation du reach, nous élaborons des stratégies basées sur des invariants géométriques, avec d’une part la fonction de défaut de convexité, et d’autre part, des mesures de distortion métrique, desquels nous obtenons des vitesses de convergence optimales au sens minimax. Concernant l’estimation de la densité, nous proposons deux approches : l’une s’appuyant sur l’étude fréquentiste d’un estimateur à noyaux, et une approche bayésienne non-paramétrique se reposant sur des mélanges de gaussiennes. Nous montrons que ces deux méthodes sont optimales et adaptatives en la régularité de la densité. Enfin, nous examinons le comportement de certaines mesures de centralité dans des graphes aléatoires géométriques, l’étude duquel, bien que sans lien avec l’hypothèse des variétés, a des implications méthodologiques et théoriques qui peuvent être intéressantes dans tout cadre statistique.fr
dc.language.isoen
dc.subjectStatistique non-Paramétriquefr
dc.subjectApprentissage sur variétéfr
dc.subjectInférence géométriquefr
dc.subjectEstimation de densitéfr
dc.subjectInférence bayésiennefr
dc.subjectEstimation du reachfr
dc.subjectStatistique en grande dimensionfr
dc.subjectThéorie minimaxfr
dc.subjectEstimation adaptativefr
dc.subjectMesure de centralitéfr
dc.subjectProfondeur statistiquefr
dc.subjectNonparametric statisticsen
dc.subjectManifold learningen
dc.subjectGeometric inferenceen
dc.subjectDensity estimationen
dc.subjectReach estimationen
dc.subjectBayesian inferenceen
dc.subjectHigh-dimensional statisticsen
dc.subjectManifold hypothesisen
dc.subjectMinimax theoryen
dc.subjectAdaptive estimationen
dc.subjectCentrality measureen
dc.subjectData depthen
dc.subject.ddc519
dc.titleStatistical inference on unknown manifoldsen
dc.titleInférence statistique sur des variétés inconnuesfr
dc.typeThèse
dc.contributor.editoruniversityotherUniversité Paris sciences et lettres
dc.description.abstractenIn high-dimensional statistics, the manifold hypothesis presumes that the data lie near low-dimensional structures, called manifolds. This assumption helps explain why machine learning algorithms work so well on high-dimensional data, and is satisfied for many real-life data sets.We present in this thesis some contributions regarding the estimation of two quantities in this framework: the density of the underlying distribution, and the reach of its support. For the problem of reach estimation, we suggest different strategies based on important geometric invariants — namely the convexity defect functions, and measures of metric distortions — from which we derive minimax-optimal rates of convergence. Regarding the problem of density estimation, we propose two approaches: one relying on the frequentist study of a kernel density estimator, and a Bayesian nonparametric approach based on location-scale mixtures of Gaussians. Both methods are shown to be optimal in most settings, and adaptive to the smoothness of the density. Lastly, we examine the behavior of some centrality measures in random geometric graph, the study of which, although unrelated to the manifold hypothesis, bears methodological and theoretical implications that can be of interest in any statistical framework.en
dc.identifier.theseid2022UPSLD016
dc.subject.ddclabelProbabilités et mathématiques appliquées
hal.author.functionaut


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record