Détection de communautés dans les grands réseaux : Application aux réseaux d'interactions de gènes
Community detection in complex networks : Application to gene interaction network
Ben M'Barek, Marwa (2022), Détection de communautés dans les grands réseaux : Application aux réseaux d'interactions de gènes, doctoral thesis prepared under the supervision of Rukoz-Castillo, Marta; Borgi, Amel, Université Paris sciences et lettres
Author(s)
Ben M'Barek, MarwaUnder the direction of
Rukoz-Castillo, Marta; Borgi, AmelAbstract (FR)
Dans le cadre de cette thèse de doctorat, nous nous intéressons à la détection des communautés de gènes dans les réseaux d’interactions de protéine-protéine. Ces communautés correspondent à des ensembles de gènes qui collaborent à une même fonction cellulaire. Notre objectif consiste à déterminer un groupe ou une communauté de gènes à partir des sources d’annotation en se basant sur l’apprentissage automatique. Pour réaliser ce travail, nous combinons trois niveaux d’informations : i) le niveau sémantique : information contenue dans les ontologies biologiques (gene Ontology), ii) le niveau fonctionnel : information contenue dans des bases de données publiques qui décrivent les interactions des gènes et iii) le niveau réseau : informations contenues dans les bases de voies biologiques. Ce travail est multidisciplinaire, à l'intersection de domaine de l’informatique et de la biologie et il comporte quatre volets. Le premier volet se concentre sur l’extraction des données biologiques utiles pour notre projet et sur l'étude de la similarité sémantique entre des groupes de gènes. Cette dernière sera l’une de caractéristique d’une communauté de gènes. Nous avons proposé, dans le deuxième volet, une approche pour la détection des communautés de gènes basée sur les algorithmes génétiques. Cette approche nommée GA-PPI-Net permet de construire et de détecter des communautés de gènes de tailles variables. GA-PPI-Net permet de maximiser une mesure communautaire qui combine à la fois des informations topologiques entre les gènes et des informations sémantiques. Par ailleurs, nous avons introduit une solution spécifique pour représenter une communauté(=solution) de taille variable et un opérateur de mutation optimisée. Dans le troisième volet, nous nous focalisons sur l'extension et l'amélioration de GA-PPI-Net. La première extension sert à proposer un nouvel opérateur de mutation adaptatif. Cette amélioration a pour objectif d’optimiser l’exploration de l’espace de recherche afin d’améliorer les qualités des communautés obtenues. La deuxième amélioration vise à rendre notre approche générique, Generic GA-PPI-Net, pour construire des communautés de gènes qui sont sémantiquement similaires et/ou sont en interaction. Dans le dernier volet, nous avons étendu ce travail afin de mettre à l’échelle Generic GAPPI-Net en utilisant le paradigme d’apprentissage actif. Cette extension nous a permis d’utiliser des sources de données volumineuses (la totalité de réseau d’interaction de protéine chez l’être humain) pour construire des communautés évolutives. Elle est basée sur une approche d’échantillonnage adaptative permettant de définir la partie du graphe à explorer par les opérateurs génétiques pendant l’évolution.Abstract (EN)
In our work, we are interested in the communities' detection in protein-protein interaction networks (PPI). These communities give us an idea about the perception of the network’s structure. One of the goals in biology is to determine how genes or proteins encode function in the cell. This work is multidisciplinary, as it brings the field of biology and computer science in the broad sense. Thus, our objectif is to find communities of genes having abiological sense (that participate in the same biological processes or that perform together specific biologicalfunctions) from gene annotation sources. To make this task, we have combined three levels of information : i) Semantic level: information contained in biological ontologies such as Gene Ontology (GO) and information obtained by the use of a similarity measure such as GO-based similarity of gene sets (GS2). It assesses the semantic similarity between genes, ii) Functional level: information contained in public databases describing the interactions of genes iii) Networks level: information contained in pathway databases. Our work has four parts. The first part focuses on the extraction of biological data used in our project. Thus, we study the semantic similarity between groups of genes that are annotated by terms of biological ontology. It is one of the characteristics of a gene community. The second part present the proposed approach GA-PPI-Net for the detection of gene communities. It is a Genetic Algorithm based approach to detect communities having different sizes from PPI networks. For this purpose, we use a fitness function based on a similarity measure and the interaction value between proteins or genes. Moreover, a specific solution for representing a community and a specific mutation operator are introduced. The third part presents two extensions of GA-PPI-Net. The first one proposes a specific adaptive mutation operator. The second aims to make GA-PPI-Net generic by allowing finding different sizes of communities based on the interaction and/or similarity criterion. This approach called Generic GA-PPI-Net. Finally, we propose to scale Generic GA-PPI-Net using the active learning paradigm. This approach allowed us to use alarge data sets (the whole humain PPI) to build evolutionary communities. It is based on an adaptive sampling approach to define the part of the graph to be explored by the genetic operators during the GA evolution.Subjects / Keywords
Grands réseaux; Détection de communautés; Interaction de gènes; Similarité sémantique; Réseau PPI; Algorithmes génétiques; Mise à l’échelle; Apprentissage actif; PPI networks; Community detection; Gene ontology; Active learning; Genetic Algorithm; Semantic similarity; Gene interactionRelated items
Showing items related by title and author.
-
Ben M’barek, Marwa; Borgi, Amel; Ben Hmida, Sana; Rukoz, Marta (2020) Communication / Conférence
-
Ben M'barek, Marwa; Borgi, Amel; Bedhiafi, Walid; Ben Hmida, Sana (2018) Article accepté pour publication ou publié
-
Ben M'barek, Marwa; Ben Hamida, Sana; Borgi, Amel; Rukoz, Marta (2021) Communication / Conférence
-
Genetic Algorithm to Detect Different Sizes’ Communities from Protein-Protein Interaction Networks Ben M'barek, Marwa; Borgi, Amel; Ben Hamida, Sana; Rukoz, Marta (2019) Communication / Conférence
-
Ben M’Barek, M.; Hmida, Hmida; Borgi, Amel; Rukoz, Marta (2021) Article accepté pour publication ou publié