Show simple item record

Apprentissage par renforcement multi-agent et détection d'objets par prédiction structurée

dc.contributor.advisorCazenave, Tristan
dc.contributor.advisorUsunier, Nicolas
dc.contributor.authorCarion, Nicolas
dc.date.accessioned2022-01-24T09:59:26Z
dc.date.available2022-01-24T09:59:26Z
dc.date.issued2020-12-04
dc.identifier.urihttps://basepub.dauphine.psl.eu/handle/123456789/22463
dc.description.abstractfrCette thèse explore l'utilisation de fonctions de perte structurées dans deux domaines distincts. Dans la première contribution, nous nous intéressons à l'apprentissage par renforcement multi-agent, dans le contexte d'environnements qui peuvent être séparés en plusieurs tâches faiblement dépendantes. On s'attache à trouver des politiques qui se généralisent à plus d'agents et de tâches que les scénarios d'entraînement, permettant ainsi d'augmenter la taille des problèmes qui peuvent être approchés. Notre solution affecte les agents aux tâches en résolvant un problème d'optimisation centralisé dont la fonction objectif est paramétrée par un réseau de neurones. On montre que l'expressivité du problème d'optimisation et celle du réseau de neurones influencent la capacité du modèle à généraliser, et qu'avec les bons choix, la politique peut généraliser à plus de 5 fois plus d'agents que pendant l'entraînement. Dans la seconde contribution, nous formulons la détection d'objets comme un problème de prédiction d'ensemble, et nous concevons un modèle dans cette optique. Notre solution utilise un réseau convolutionnel profond, comme souvent en vision par ordinateur, et un encodeur-décodeur de Transformer, une architecture qui a récemment permis d'importants progrès en traitement du langage. Remarquablement, notre solution n'incorpore que peu de biais inductif, et ne nécessite donc pas de composants spécifiques à la détection d'objets, tels que les ancres de détection. Avec un nombre de paramètres comparable, notre modèle égale la performance de modèles de référence, tels que Retinanet et Faster R-CNN sur le dataset de détection COCO. Pour finir, nous montrons que la méthode peut naturellement être étendue à la segmentation panoptique, où elle surpasse les approches concurrentes, démontrant ainsi sa généralité.fr
dc.language.isoen
dc.subjectDétection d’objets
dc.subjectVision par ordinateur
dc.subjectApprentissage par renforcement
dc.subjectSystème multi-agent
dc.subjectApprentissage profond
dc.subjectObject detection
dc.subjectComputer vision
dc.subjectReinforcement learning
dc.subjectMulti-agent
dc.subjectDeep learning
dc.subject.ddc006.3
dc.titleMulti-agent reinforcement learning and object detection asstructured prediction
dc.titleApprentissage par renforcement multi-agent et détection d'objets par prédiction structurée
dc.typeThèse
dc.contributor.editoruniversityotherUniversité Paris sciences et lettres
dc.description.abstractenThis thesis explores the use of structured losses in two different domains. In the first contribution, we focus on multi-agent reinforcement learning (MARL), in environments that can be separated into several loosely coupled tasks. We set out to find policies that can generalize well to more agents and tasks than seen during training, effectively scaling up the size of problems that can betackled. Our solution assigns agents to tasks by approximately solving acentralized optimization problem whose objective function is parameterized by a neural network. We study how the expressivity of the optimization problem and that of the neural network influence the generalization capabilities of the model, and show that with the right choices, the policy can generalize to more than 5 times more agents than seen during training. In the second contribution we formulate object detection as a set prediction problem,and design a model that can effectively tackle this formulation. Our solution leverages a deep convolutional network, as is customary in computer vision, and a transformer encoder-decoder network, an architecture that has enabled significant progress innatural language processing. Crucially, our solution incorporates minimal inductive bias, thereby all eviating the need for hand-designed detection-specific components such as anchors or non-maximal suppression. With a comparable parameter budget, our model matches the performance of well-established and highly-optimized baselines such as Retinanet and Faster R-CNN on the challenging COCO detection dataset. Finally, we show that the method can be naturally extended to perform panoptic segmentation, where it out performs competing approaches, thus showing the versatility of the model.en
dc.identifier.theseid2020UPSLD040
dc.subject.ddclabelIntelligence artificielle
hal.author.functionaut


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record