Qualité des données dans le contexte Big Data.
Loading...
Date
2021-02-15
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
الملخص(بالعربية):
تفقد المؤسسات حول العالم تريليونات الدولارات بسبب مشاكل جودة البيانات السيئة. في السنوات الأخيرة ، جعل الوعي بأهمية جودة البيانات أصحاب المصلحة يستثمرون الكثير من المال من أجل تحسين جودة البيانات المخزنة. واحدة من العمليات الرئيسية في مجال جودة البيانات هي عملية ربط السجلات. ربط السجلات هو عملية تحديد البيانات التي تشير إلى نفس الكيان الواقعي. بدون تجزئة، يمكن أن تنتهي عملية ربط البيانات بمليارات المقارنات عند التعامل مع مجموعة بيانات .كبيرة. تؤدي تجزئة البيانات إلى تقليل عدد المقارنات عن طريق تقسيم البيانات إلى كتل بطريقة تتم فيها مقارنة السجلات الموجودة في نفس الكتلة فقط
في هذه الأطروحة ، نقدم المساهمات التالية: (1) أسلوب جديد لربط البيانات يستند إلى خوارزمية كي-مودز كخطوة تجزئة وتقنية تصفية كخطوة بعد التجزئة. يرتبط النهج المقترح بالتنفيذ الموازي باستخدام تقنية ماب ريد يوس لمواجهة تحديات البيانات الضخمة. (2) نقترح نهجًا دو طابع تلقائي لاختيار مفاتيح التجزئة استنادًا إلى خوارزمية بحث النسر الأصلع. (3) نقدم آلية تتحكم في أحجام الكتل المولدة. (4) نقترح حلاً بحيث يمكن استخدام منهجنا المقترح في حالة اللغة العربية ، والحل هو .إضافة خطوة تحويل صوتي إضافية إلى العملية. أظهرت النتائج التي تم الحصول عليها من التجارب كفاءة مقترحاتنا
الكلمات الرئيسية: جودة البيانات, البيانات الكبيرة, ربط السجلات, مستودعات البيانات.
-----------------------------------------------------------------------------------
Résumé (en Français) :
Les Organisations du monde entier perdent des billions de dollars en raison de problèmes de qualité des données. L'un des principaux processus dans le domaine de la qualité des données est le processus de couplage d'enregistrements (Record Linkage). Le couplage d'enregistrements est le processus qui consiste à identifier les tuples qui se réfèrent à la même entité du monde réel. Sans blocage, le processus RL peut aboutir à des milliards de comparaisons lorsqu'il s'agit de grands ensembles de données. Le blocage réduit le nombre de comparaisons en divisant les données en blocs de manière à ce que seuls les enregistrements d'un même bloc soient comparés les uns aux autres.
Dans cette thèse, nous présentons les contributions suivantes : (1) Une nouvelle approche RL basée sur l'algorithme K-Modes comme étape de blocage et une technique de filtrage comme étape de post-traitement au blocage. L'approche RL proposée est associée à une implémentation parallèle utilisant Hadoop afin de faire face aux défis des Big Data. (2) Nous proposons une approche pour la sélection automatique des clés de blocage basée sur l'algorithme de recherche Bald Eagle. (3) Nous introduisons un mécanisme qui contrôle la taille des blocs générés par K-Modes. (4) Nous proposons une solution pour que notre RL basé sur K-Modes puisse être utilisé dans le cas de la langue arabe, la solution est d'ajouter une étape de translitération supplémentaire au processus RL. Les résultats obtenus par les expérimentations ont montré l'efficacité de nos propositions.
Les mots clés :Qualité des données, couplage d'enregistrements, Big Data, Map-Reduce, Entrepôts de données.
-----------------------------------------------------------------------------------
Abstract (en Anglais) :
Organizations around the world lose trillions of dollars due to poor data quality problems. One of the main processes in the data quality field is the Record Linkage process. Record linkage is the process of identifying the tuples that refer to the same real-world entity. Without blocking, the RL process can end up by billions of comparisons when dealing with large datasets. Blocking reduces the number of comparisons by dividing the data into blocks in a way that only the records in the same block will be compared to each other.
In this thesis, we present the following contributions : (1) A new RL approach based on the K-Modes algorithm as a blocking step and a filtering technique as a post-processing step to blocking. The proposed RL approach is associated with a parallel implementation using Hadoop in order to face the Big Data challenges. (2) We propose an approach for the automatic blocking keys selection based on the Bald Eagle search algorithm. (3) We introduce a mechanism that controls the sizes of the K-Modes generated blocks. (4) We suggest a solution so that our K-Modes based RL can be used in the case of the Arabic language, the solution is to add an additional transliteration step to the RL process. The obtained results from experiments showed the efficiency of our propositions.
Keywords :Data quality, Record Linkage, Big Data, Map-Reduce, Data warehouses.
Description
Doctorat