Enrichissement et intégration des données liées

Loading...
Thumbnail Image
Date
2017-11-21
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Résumé (Français et/ou Anglais) : Les données liées, telles qu’elles sont proposées par Tim Berners-Lee (2006), visent à partager et à interconnecter des données structurées sur le web sous forme d’une représentation lisible par la machine pour former un seul espace de données global. Dans ce contexte, Linked Open Data Cloud est un projet qui permet de publier et d’interconnecter des données structurées sur le web conformément aux principes des données liées. Avec le nombre croissant de données disponibles dans le LOD Cloud, le problème d’hétérogénéité des données dans ces sources augmente et, par conséquent, le besoin d’accéder à toutes ces sources via une interface unique et cohérente a été le défi de nombreuses recherches dans le domaine d’intégration des données liées. En fait, le processus d’intégration des données liées nécessite trois étapes principales : l’établissement de liens typés au niveau d’instances et l’alignement de différents vocabulaires utilisés pour décrire les entités ainsi que l’évaluation de la qualité et la fusion des données. Dans la littérature, il existe plusieurs travaux qui visent à réduire l’hétérogénéité en appliquant plusieurs méthodes d’intégration des données sur les données liées. Cependant, ces méthodes ne sont pas totalement satisfaisantes et le problème d’intégration reste ouvert pour la proposition de nouvelles contributions. Pour intégrer des ensembles de données liées, nous avons proposé plusieurs méthodes dans cette thèse. Afin de découvrir des liens typés au niveau d’instances, nous avons proposé une méthode qui vise à réduire le nombre de comparaisons lors du mapping de grands ensembles de données liées. De plus, nous avons développé un outil appelé LDVT (Linked Data VisualizationTool) qui permet de visualiser le résultat du processus de découverte de liens pour vérifier la précision et l’exhaustivité des liens. En outre, nous avons proposé une nouvelle approche pour fusionner les données liées à l’aide d’un algorithme génétique. Notre approche vise à combiner des valeurs conflictuelles de différents ensembles de données pour obtenir une vue unifiée de ces données. Nos méthodes d’intégration des données liées ont été évaluées en utilisant des ensembles de données réels à partir du LOD Cloud. Nous avons également comparé les méthodes proposées avec d’autres méthodes d’intégration de la littérature.
Description
Doctorat
Keywords
Citation