• xmlui.mirage2.page-structure.header.title
    • français
    • English
  • Help
  • Login
  • Language 
    • Français
    • English
View Item 
  •   BIRD Home
  • CEREMADE (UMR CNRS 7534)
  • CEREMADE : Publications
  • View Item
  •   BIRD Home
  • CEREMADE (UMR CNRS 7534)
  • CEREMADE : Publications
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

BIRDResearch centres & CollectionsBy Issue DateAuthorsTitlesTypeThis CollectionBy Issue DateAuthorsTitlesType

My Account

LoginRegister

Statistics

Most Popular ItemsStatistics by CountryMost Popular Authors
Thumbnail

Mean-Field Langevin Dynamics and Energy Landscape of Neural Networks

Hu, Kaitong; Ren, Zhenjie; Siska, David; Szpruch, Lukasz (2021), Mean-Field Langevin Dynamics and Energy Landscape of Neural Networks, Annales de l'Institut Henri Poincaré, Probabilités et statistiques, 57, 4, p. 2043-2065. 10.1214/20-AIHP1140

View/Open
1905.07769(1).pdf (419.4Kb)
Type
Article accepté pour publication ou publié
Date
2021
Journal name
Annales de l'Institut Henri Poincaré, Probabilités et statistiques
Volume
57
Number
4
Publisher
Institute of Mathematical Statistics
Published in
Paris
Pages
2043-2065
Publication identifier
10.1214/20-AIHP1140
Metadata
Show full item record
Author(s)
Hu, Kaitong
Centre de Mathématiques Appliquées - Ecole Polytechnique [CMAP]
Ren, Zhenjie
CEntre de REcherches en MAthématiques de la DEcision [CEREMADE]
Siska, David
School of Mathematics - University of Edinburgh
Szpruch, Lukasz
School of Mathematics - University of Edinburgh
Abstract (FR)
L’objectif de nos travaux est d’étudier le fondement théorique pour la convergence des algorithmes du type gradient stochastique, qui sont très souvent utilisés dans les problèmes d’apprentissage non-convexe, e.g. calibrer un réseau de neurones. L’observation clé, qui a déjà été remarquée dans (Mei, Montanari and Nguyen (2018); Chizat and Bach (2018); Rotskoff and Vanden-Eijnden (2018)), est qu’une certaine classe de problèmes non-convexes fini-dimensionnels devient convexe une fois injectée dans l’espace des mesures de probabilité. À l’aide de cette observation nous montrons que la fonction d’énergie correspondante définie dans l’espace des mesures de probabilité a un unique minimiser qui peut être caractérisé par une condition de premier ordre en utilisant la notion de dérivée fonctionnelle. Par la suite, nous étudions la structure de flux de gradient avec la métrique de 2-Wasserstein, que nous appelons la dynamique de Langevin au champs moyen (MFLD), et nous montrons que la loi marginale du flux de gradient converge vers une loi stationnaire qui correspond au minimiser de la même fonction d’énergie précédente. Sous certaines conditions de régularité du probléme initial, la convergence a lieu à une vitesse exponentielle. Nos preuves de la convergence vers la loi stationnaire est nouvelle, qui reposent sur le principe d’invariance de LaSalle et l’inégalité HWI. Remarquons que nous ne supposons pas que l’interaction potentielle de MFLD soit du type convolution ou symétrique. De plus, nos résultats s’appliquent aux fonctions d’objectif convexes générales contrairement aux beaucoup d’articles dans la littérature qui se limitent aux fonctions quadratiques. Enfin, nous montrons que la différence entre le probléme initial d’optimisation fini-dimensionnel et sa limite dans l’espace des mesures de probabilité est de l’ordre d’un sur le nombre de paramètres.
Abstract (EN)
We present a probabilistic analysis of the long-time behaviour of the nonlocal, diffusive equations with a gradient flow structure in 2-Wasserstein metric, namely, the Mean-Field Langevin Dynamics (MFLD). Our work is motivated by a desire to provide a theoretical underpinning for the convergence of stochastic gradient type algorithms widely used for non-convex learning tasks such as training of deep neural networks. The key insight is that the certain class of the finite dimensional non-convex problems becomes convex when lifted to infinite dimensional space of measures. We leverage this observation and show that the corresponding energy functional defined on the space of probability measures has a unique minimiser which can be characterised by a first order condition using the notion of linear functional derivative. Next, we show that the flow of marginal laws induced by the MFLD converges to the stationary distribution which is exactly the minimiser of the energy functional. We show that this convergence is exponential under conditions that are satisfied for highly regularised learning tasks. At the heart of our analysis is a pathwise perspective on Otto calculus used in gradient flow literature which is of independent interest. Our proof of convergence to stationary probability measure is novel and it relies on a generalisation of LaSalle's invariance principle. Importantly we do not assume that interaction potential of MFLD is of convolution type nor that has any particular symmetric structure. This is critical for applications. Finally, we show that the error between finite dimensional optimisation problem and its infinite dimensional limit is of order one over the number of parameters.
Subjects / Keywords
Mean-Field Langevin Dynamics; Gradient Flow; Neural Networks

Related items

Showing items related by title and author.

  • Thumbnail
    Mean-field Langevin System, Optimal Control and Deep Neural Networks 
    Hu, Kaitong; Kazeykina, Anna; Ren, Zhenjie (2019-09) Document de travail / Working paper
  • Thumbnail
    Game on Random Environement, Mean-field Langevin System and Neural Networks 
    Conforti, Giovanni; Kazeykina, Anna; Ren, Zhenjie (2022) Article accepté pour publication ou publié
  • Thumbnail
    Ergodicity of the underdamped mean-field Langevin dynamics 
    Kazeykina, Anna; Ren, Zhenjie; Tan, Xiaolu; Yang, Junjian (2020) Document de travail / Working paper
  • Thumbnail
    Uniform-in-Time Propagation of Chaos for Mean Field Langevin Dynamics 
    Chen, Fan; Ren, Zhenjie; Wang, Songbo (2022) Document de travail / Working paper
  • Thumbnail
    Principal-agent problem with multiple principals 
    Hu, Kaitong; Ren, Zhenjie; Yang, Junjian (2022) Article accepté pour publication ou publié
Dauphine PSL Bibliothèque logo
Place du Maréchal de Lattre de Tassigny 75775 Paris Cedex 16
Phone: 01 44 05 40 94
Contact
Dauphine PSL logoEQUIS logoCreative Commons logo