Inférence de Schémas pour Données JSON Massives
Baazizi, Mohamed-Amine; Ben Lahmar, Houssem; Colazzo, Dario; Ghelli, Giorgio; Sartiani, Carlo (2016), Inférence de Schémas pour Données JSON Massives, 32ème Conférence sur la "Gestion de Données — Principes, Technologies et Applications" (BDA 2016), 2016-11, Poitiers, France
Type
Communication / ConférenceExternal document link
https://hal.archives-ouvertes.fr/hal-01502373Date
2016Conference title
32ème Conférence sur la "Gestion de Données — Principes, Technologies et Applications" (BDA 2016)Conference date
2016-11Conference city
PoitiersConference country
FranceMetadata
Show full item recordAuthor(s)
Baazizi, Mohamed-AmineBen Lahmar, Houssem
Colazzo, Dario
Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision [LAMSADE]
Ghelli, Giorgio
Sartiani, Carlo
Abstract (EN)
Ces dernières années ont connu une large adoption de JSON en tant que format de représentation de données massives. Les données JSON sont généralement dépourvues de schémas puisqu'elles sont produites et gérées de manière flexible. Malgré cet avantage, l'absence de schéma présente de nombreux inconvénients : la correction des requêtes et des programmes ne peut être vérifiée de manière statique comme c'est la cas traditionnellement, les utilisateurs ne disposent d'aucun moyen le permettant de découvrir la structure des données sous-jacentes et, de manière plus générale, les techniques d'optimisations basées sur les schémas ne peuvent être appliquées.Dans ce travail nous nous intéressons à l'inférence de schémas pour des données JSON massives. Notre première contribution consiste à proposer un langage de types pour JSON permettant de représenter la structure complexe des données analysées. Notre seconde contribution concerne le développement d'un algorithme d'inférence distribué et de son implantation dans Spark afin de garantir une exécution efficace sur des données volumineuses. Les résultats obtenus suite à une première étude expérimentale permettent de conclure que notre approche est satisfaisant en terme de temps d'exécution et de concision de schémas inférés.Subjects / Keywords
JSONRelated items
Showing items related by title and author.
-
Baazizi, Mohamed-Amine; Colazzo, Dario; Ghelli, Giorgio; Sartiani, Carlo (2019) Article accepté pour publication ou publié
-
Baazizi, Mohamed-Amine; Berti, Clément; Colazzo, Dario; Ghelli, Giorgio; Sartiani, Carlo (2020) Communication / Conférence
-
Baazizi, Mohamed-Amine; Colazzo, Dario; Ghelli, Giorgio; Sartiani, Carlo (2019) Communication / Conférence
-
Baazizi, Mohamed-Amine; Colazzo, Dario; Ghelli, Giorgio; Sartiani, Carlo (2019) Communication / Conférence
-
Baazizi, Mohamed-Amine; Colazzo, Dario; Ghelli, Giorgio; Sartiani, Carlo (2019) Communication / Conférence