Utilisation des Ontologies dans la Catégorisation de Textes Multilingues
Loading...
Date
2015-06-29
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
الملخص (بالعربية) :
تندرج هذه الأطروحة في مجال تصنيف النصوص متعددة اللغات و الذي يهدف إلى إحالة النصوص المتعددة اللغات إلى فئة من بين الفئات المحددة مسبقا. الحل المباشر يكمن في ترجمة النصوص إلى نفس اللغة لاسيما يعاني هذا الحل من عدم دقة تقنيات الترجمة الآلية.
في هذا السياق اقترحنا طريقتين ترتكزان على استخدام الانطولوجيات كحل لمعالجة المشاكل الناجمة عن استعمال الترجمة الآلية.
تعتمد الطريقة الأولى على استعمال انطولوجيا أحادية اللغة كوسيلة للحد من تشويه المعلومات الناجم عن عدم دقة تقنيات الترجمة الآلية و ذلك عن طريق استبدال الكلمات المترجمة بالمفاهيم المخصصة لها في الانطولوجيا المستعملة.
قي الطريقة الثانية، نقترح امتدادا للطريقة الأولى على أساس استخدام الانطولوجيات متعددة اللغات لتجنب استخدام تقنيات الترجمة الآلية.
من أجل تقييم الطريقتين المقترحتين ، أجرينا تجاربنا باستخدام الانطولوجيتين و
أظهرت نتائج التجارب تحسنا ملحوظا مقارنة بالطريقة التي تعتمد على الترجمة الآلية كحل وحيد مما يدل على نجاعة استخدام الانطولوجيات في مجال تصنيف النصوص متعددة اللغات .
Résumé (Français et/ou Anglais) :
L’objectif de la catégorisation de textes multilingues est de permettre l’assignation d’une ou plusieurs catégories parmi une liste prédéfinie aux textes multilingues. La solution la plus directe consiste a traduire tout les documents vers une seule langue. Néanmoins, cette solution souffre de l’imprécision des techniques de traduction automatique. Les travaux de cette thèse s’inscrivent dans la problématique générale liée à l’utilisation des ontologies pour la catégorisation de textes multilingues.
Dans notre première contribution, nous proposons une nouvelle approche de catégorisation multilingue intégrant les ontologies dans la phase de représentation comme moyen pour réduire les
distorsions d’information causées par les traducteurs. L’idée consiste a mapper les traductions générées via les concepts de l’ontologie monolingue utilisée.
Dans la deuxième contribution, nous proposons une extension de la première approche qui se base sur l’utilisation des ontologies multilingues afin d’éviter l’utilisation des techniques de traduction automatique.
Dans nos expérimentations, nous utilisons le Princeton WordNet ainsi que le WordNet Espagnol pour évaluer les deux approches proposées sur deux corpus bilingues Anglais-Espagnol. Les résultats obtenus montrent une nette amélioration par rapport a l’approche basée sur la traduction automatique.
Description
Doctorat en Sciences