- [ VRPG-Doc] Informatique --- إعلام آلي

Permanent URI for this collection

Browse

Recent Submissions

Now showing 1 - 5 of 11
  • Item
    Approche sémantique pour le développement des systèmes de recommandation
    (2018-03-15) FRIDI Asmaa; Encadreur: BENSLIMANE Sidi Mohamed
    Résumé (Français et/ou Anglais) : Les systèmes de recommandations ont contribué à la réussite des sites Web personnalisées car ils peuvent automatiquement et efficacement choisir des articles ou des services adaptés à l’intérêt de l’utilisateur à partir d’énormes ensembles de données. Cependant, ces systèmes souffrent de problématiques liées au nombre peu important d’évaluations, au démarrage à froid du système et au nouvel utilisateur, nouvelle ressource. C’est pour cela que plusieurs voies ont été explorées pour trouver des solutions aux problématiques associées. LeWorld Wide Web se déplace d’un Web des documents hyper-liés à un Web des données liées. L’avènement de l’initiative Linked Open Data (LOD) a donné naissance à un grand choix de bases de connaissances ouvertes librement accessibles sur le Web tel que DBpedia. Ils fournissent une source d’information précieuse qui peut améliorer les systèmes de recommandation conventionnels, s’il est bien exploité. Dans cette thèse, nous montrons que l’utilisation des informations sémantiques décrivant les utilisateurs et les ressources peut améliorer la précision, la couverture et la qualité des systèmes de recommandation. Ceci en fournissant des informations supplémentaires permettant d’enrichir les items et les utilisateurs. Le web sémantique ou plus précisément le web des données ouvertes liées est l’infrastructure idéale pour obtenir ces descriptions sémantiques, car il permetla gestion décentralisée de l’information et l’agrégation de plusieurs sources
  • Item
    L’apprentissage profond pour le traitement d’images
    (2020-12-23) DIF Nassima; Encadreur: Elberrichi Zakaria
    الملخص (بالعربية) الرؤية الحاسوبية هي أحدى مجالات علم الحاسوب التي تمكن الأنظمة الأوتوماتيكية بالتعرف على المعطيات المرئية (الصورة والفيديو). تستخدم هذه الأنظمة عادة لاداء مهام التوصية. في السنوات الأخيرة, تزايد كمية البيانات الرقمية ساهم بشكل كبير في الإهتمام المتزايد بأنظمة الرؤية الحاسوبية وذلك لمعالجة هذه الكمية المعتبرة من المعلومات وتسهيل إستخراج المعارف المهمة منها. تعتمد أنظمة الرؤية الحاسوبية بشكل أساسي على طرق تعلم الآلة وطرق التعلم العميق. في السنوات الأخيرة, ساهمت الكميات المعتبرة من المعلومات ووحدات معالجة الرسوميات القوية في تشجيع الباحثين على إستغلال طرق التعلم العميق. تتميز هذه التقنيات بأدائها الجيد على الكميات المعتبرة من البيانات, إضافة إلى ذلك, تتميز أيضا بقدرتها على الإستخلاص الأوتوماتيكي للميزات من البيانات الغير المنظمة, مثل الصور. أستخدمت طرق التعلم العميق في العديد من التطبيقات في مجال الرؤية الحاسوبية وذلك من أجل أداء مهام مختلفة مثل التصنيف, الكشف, وتقسيم الصور الرقمية. في هذه الأطروحة, وجهنا إهتمامنا بشكل خاص لإستخدام صنف خاص من خوارزميات التعلم العميق من أجل تصنيف الخصائص النسيجية للصور. في هذا السياق, إقترحنا العديد من الطرق من أجل معالجة مختلف المشاكل المتعلقة بتطبيق طرق التعلم العميق لمعالجة هذه الصور. تعتمد التقنيات المقترحة بشكل رئيسي على تقنيات التنظيم, التعلم الجماعي, ونقل التعلم. طرق التعلم الجماعي تساعد على حل مختلف المشاكل المتعلقة بالتباين المرتفع, التحيز, والتأثر المعتبر لطرق التعلم العميق بتغير البيانات. من ناحية أخرى, طرق نقل التعلم تستخدم من أجل حل مشاكل طرق التعلم العميق على الكميات المحدودة من البيانات. الكلمات الرئيسية: الرؤية الحاسوبية, طرق التعلم العميق, خوارزميات التعلم العميق, الخصائص النسيجية للصور. Résumé (en Français) : La vision par ordinateur est un champ d’étude qui permet aux systèmes automatiques à reconnaitre les entrées visuelles pour les exploiter dans des tâches de recommandation. Dans ces dernières années, la quantité des images et des vidéos a largement augmenté. L’exploitation des systèmes de vision par ordinateur pour l’analyse de cette quantité d’informations devient importante afin d’extraire de l’information pertinente. Les systèmes de vision par ordinateur sont basés essentiellement sur les méthodes d’apprentissage automatique (ML) et d’apprentissage profond (DL). Avec l’augmentation de la quantité de données et la disponibilité du matériel puissant, les méthodes DL ont connu un grand intérêt en raison de leur bonne performance sur les grands volumes de données et leur capacité d’extraction de caractéristique dans le cadre des données non structurées. Ces techniques étaient exploitées dans différents sous domaines en vision par ordinateur pour effectuer plusieurs tâches : classification, localisation, détection, et segmentation. Dans le contexte de la présente étude, nous nous intéressons à la classification des images histopathologiques par les méthodes DL, précisément par les réseaux de neurones convolutifs (CNN). Dans ce cadre, nous avons proposé plusieurs approches pour répondre aux différents problèmes liés à l’application des techniques DL en classification de ce type d’images. Les approches proposées sont basées essentiellement sur les techniques de régularisation, les méthodes ensemblistes, et les stratégies d’apprentissage transféré et de fine tuning. Il est intéressant de noter que les méthodes ensemblistes sont exploitées afin de résoudre les différents problèmes liés à la variance élevée, le sur-apprentissage, et la sensibilité des réseaux DL au changement de données. En plus, elles permettent de combiner les prédictions de plusieurs modèles, et cela génère des décisions plus robustes et stables au changement de données. D’autre part, les techniques d’apprentissage transféré et de fine tuning sont utilisés afin de résoudre le problème de sur-apprentissage sur les volumes limités de données. Les mots clés : vision par ordinateur, apprentissage profond, réseaux de neurones convolutifs, images histopathologiques. Abstract (en Anglais) : Computer vision is defined as a field of computer science that enables automatic systems to identify visual inputs. These systems are usually used to perform recommendation tasks. In recent years, the amount of digital data, such as images and videos, have largely increased. In this regard, the exploitation of computer vision systems became essential to maintain these volumes and also to extract relevant information. Computer vision systems are based on machine learning (ML) and deep learning (DL) methods. Many factors, such as the growing volumes of data and the availability of powerful graphical processing units (GPU) have encouraged the computer vision community to exploit DL methods. These techniques are characterized by their efficiency on large volumes of data and also by their capacity to extract features from non-structured data. DL methods have been exploited in different applications in computer vision to perform several tasks: classification, localization, detection, and segmentation. In this study, we are particularly interested in the classification of histopathological images by convolutional neural networks (CNN). In this context, we have proposed several pipelines to solve the different issues related to the application of DL methods on these types of images. The proposed frameworks are based mainly on regularization methods, ensemble learning techniques, and transfer learning and fine-tuning strategies. We should note that ensemble learning techniques are used to solve the different issues related to the high variance, overfitting, and the sensevity of neural networks to data changes. On the other hand, transfer learning and fine-tuning strategies are used to solve the overfitting problem on limited volumes of data. Keywords : Computer vision, deep learning, convolutional neural networks, histopathological images.
  • Item
    Enrichissement et intégration des données liées
    (2017-11-21) BENCHERIF Khayra; Encadreur: MALKI Mimoun
    Résumé (Français et/ou Anglais) : Les données liées, telles qu’elles sont proposées par Tim Berners-Lee (2006), visent à partager et à interconnecter des données structurées sur le web sous forme d’une représentation lisible par la machine pour former un seul espace de données global. Dans ce contexte, Linked Open Data Cloud est un projet qui permet de publier et d’interconnecter des données structurées sur le web conformément aux principes des données liées. Avec le nombre croissant de données disponibles dans le LOD Cloud, le problème d’hétérogénéité des données dans ces sources augmente et, par conséquent, le besoin d’accéder à toutes ces sources via une interface unique et cohérente a été le défi de nombreuses recherches dans le domaine d’intégration des données liées. En fait, le processus d’intégration des données liées nécessite trois étapes principales : l’établissement de liens typés au niveau d’instances et l’alignement de différents vocabulaires utilisés pour décrire les entités ainsi que l’évaluation de la qualité et la fusion des données. Dans la littérature, il existe plusieurs travaux qui visent à réduire l’hétérogénéité en appliquant plusieurs méthodes d’intégration des données sur les données liées. Cependant, ces méthodes ne sont pas totalement satisfaisantes et le problème d’intégration reste ouvert pour la proposition de nouvelles contributions. Pour intégrer des ensembles de données liées, nous avons proposé plusieurs méthodes dans cette thèse. Afin de découvrir des liens typés au niveau d’instances, nous avons proposé une méthode qui vise à réduire le nombre de comparaisons lors du mapping de grands ensembles de données liées. De plus, nous avons développé un outil appelé LDVT (Linked Data VisualizationTool) qui permet de visualiser le résultat du processus de découverte de liens pour vérifier la précision et l’exhaustivité des liens. En outre, nous avons proposé une nouvelle approche pour fusionner les données liées à l’aide d’un algorithme génétique. Notre approche vise à combiner des valeurs conflictuelles de différents ensembles de données pour obtenir une vue unifiée de ces données. Nos méthodes d’intégration des données liées ont été évaluées en utilisant des ensembles de données réels à partir du LOD Cloud. Nous avons également comparé les méthodes proposées avec d’autres méthodes d’intégration de la littérature.
  • Item
    Gestion des certificats dans les réseaux véhiculaires
    (2020-02-19) BENSAID Chaima; Encadreur: BOUKLI HACENE Sofiane
  • Item
    Qualité des données dans le contexte Big Data.
    (2021-02-15) BENKHALED Hamid Naceur; Encadreur: BERRABAH Djamel
    الملخص(بالعربية): تفقد المؤسسات حول العالم تريليونات الدولارات بسبب مشاكل جودة البيانات السيئة. في السنوات الأخيرة ، جعل الوعي بأهمية جودة البيانات أصحاب المصلحة يستثمرون الكثير من المال من أجل تحسين جودة البيانات المخزنة. واحدة من العمليات الرئيسية في مجال جودة البيانات هي عملية ربط السجلات. ربط السجلات هو عملية تحديد البيانات التي تشير إلى نفس الكيان الواقعي. بدون تجزئة، يمكن أن تنتهي عملية ربط البيانات بمليارات المقارنات عند التعامل مع مجموعة بيانات .كبيرة. تؤدي تجزئة البيانات إلى تقليل عدد المقارنات عن طريق تقسيم البيانات إلى كتل بطريقة تتم فيها مقارنة السجلات الموجودة في نفس الكتلة فقط في هذه الأطروحة ، نقدم المساهمات التالية: (1) أسلوب جديد لربط البيانات يستند إلى خوارزمية كي-مودز كخطوة تجزئة وتقنية تصفية كخطوة بعد التجزئة. يرتبط النهج المقترح بالتنفيذ الموازي باستخدام تقنية ماب ريد يوس لمواجهة تحديات البيانات الضخمة. (2) نقترح نهجًا دو طابع تلقائي لاختيار مفاتيح التجزئة استنادًا إلى خوارزمية بحث النسر الأصلع. (3) نقدم آلية تتحكم في أحجام الكتل المولدة. (4) نقترح حلاً بحيث يمكن استخدام منهجنا المقترح في حالة اللغة العربية ، والحل هو .إضافة خطوة تحويل صوتي إضافية إلى العملية. أظهرت النتائج التي تم الحصول عليها من التجارب كفاءة مقترحاتنا الكلمات الرئيسية: جودة البيانات, البيانات الكبيرة, ربط السجلات, مستودعات البيانات. ----------------------------------------------------------------------------------- Résumé (en Français) : Les Organisations du monde entier perdent des billions de dollars en raison de problèmes de qualité des données. L'un des principaux processus dans le domaine de la qualité des données est le processus de couplage d'enregistrements (Record Linkage). Le couplage d'enregistrements est le processus qui consiste à identifier les tuples qui se réfèrent à la même entité du monde réel. Sans blocage, le processus RL peut aboutir à des milliards de comparaisons lorsqu'il s'agit de grands ensembles de données. Le blocage réduit le nombre de comparaisons en divisant les données en blocs de manière à ce que seuls les enregistrements d'un même bloc soient comparés les uns aux autres. Dans cette thèse, nous présentons les contributions suivantes : (1) Une nouvelle approche RL basée sur l'algorithme K-Modes comme étape de blocage et une technique de filtrage comme étape de post-traitement au blocage. L'approche RL proposée est associée à une implémentation parallèle utilisant Hadoop afin de faire face aux défis des Big Data. (2) Nous proposons une approche pour la sélection automatique des clés de blocage basée sur l'algorithme de recherche Bald Eagle. (3) Nous introduisons un mécanisme qui contrôle la taille des blocs générés par K-Modes. (4) Nous proposons une solution pour que notre RL basé sur K-Modes puisse être utilisé dans le cas de la langue arabe, la solution est d'ajouter une étape de translitération supplémentaire au processus RL. Les résultats obtenus par les expérimentations ont montré l'efficacité de nos propositions. Les mots clés :Qualité des données, couplage d'enregistrements, Big Data, Map-Reduce, Entrepôts de données. ----------------------------------------------------------------------------------- Abstract (en Anglais) : Organizations around the world lose trillions of dollars due to poor data quality problems. One of the main processes in the data quality field is the Record Linkage process. Record linkage is the process of identifying the tuples that refer to the same real-world entity. Without blocking, the RL process can end up by billions of comparisons when dealing with large datasets. Blocking reduces the number of comparisons by dividing the data into blocks in a way that only the records in the same block will be compared to each other. In this thesis, we present the following contributions : (1) A new RL approach based on the K-Modes algorithm as a blocking step and a filtering technique as a post-processing step to blocking. The proposed RL approach is associated with a parallel implementation using Hadoop in order to face the Big Data challenges. (2) We propose an approach for the automatic blocking keys selection based on the Bald Eagle search algorithm. (3) We introduce a mechanism that controls the sizes of the K-Modes generated blocks. (4) We suggest a solution so that our K-Modes based RL can be used in the case of the Arabic language, the solution is to add an additional transliteration step to the RL process. The obtained results from experiments showed the efficiency of our propositions. Keywords :Data quality, Record Linkage, Big Data, Map-Reduce, Data warehouses.