Approches Méta-Heuristiques pour les Tâches de Classification

Loading...
Thumbnail Image
Date
2018-06-18
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Résumé (Français ) : Dans l’exploration de données, de nombreuses techniques sont utilisées pour extraire des informations utiles. L’une de ces techniques est la classification, la classification de volume massif de données est une tâche complexe en raison entre autres la présence d’attributs redondants et non pertinents. Pour obtenir les meilleurs modèles de classification, la sélection d’attributs est devenue une étape essentielle du prétraitement des données. Dans cette thèse, nous présentons deux nouveaux algorithmes adaptatifs appelés FSPeSOA (feature selection penguins search optimization algorithm) et FS-SLOA (feature selection seven spot ladybird optimization algorithm) qui sont des méthodes de sélection méta-heuristiques. Ils seront combinés avec différents classificateurs pour trouver les meilleures attributs, qui atteignent la plus grande précision dans la classification. Ensuite, nous étudions et comparons l’hybridation de plusieurs méthodes de filtrages et de méta-heuristiques, y compris la sélection d’attributs basée sur les corrélations (CFS), l’analyse de composantes principales (PCA) et les statistiques X2 (CHI) comme méthodes de filtrages et l’algorithme génétique (GA), FS-PeSOA et FS-SLOA comme méthodes méta-heuristiques. Pour l’évaluation de chaque approche, nous explorons l’utilisation de la validation croisée 5 fois, de la validation croisée 10 fois et la division simple de donné (90% pour les données d’apprentissage et 10% pour les données de test). Enfin, nous présentons l’algorithme SLOA pour découvrir les règles de classification, cet algorithme suit l’approche du Michigan. Nos approches proposées ont été expérimentées sur des ensembles de données de référence (Wisconsin Breast Cancer, Diabète Pima, Mammographie Mass, Dermatologie, Colon Tumor et Cancer de la Prostate). Les résultats expérimentaux prouvent que les précisions de classification sont puissantes pour les différents ensembles de données. Résumé (Anglais) : In data mining, many techniques are used to extract useful information. One of these techniques is the classification, the classification of the massive volume of data is a complex task due to the presence of redundant and irrelevant features. To obtain the best classification models, feature selection became an essential data pre-processing step. In this thesis, we first present two new adaptive algorithms called FS-PeSOA (Feature Selection Penguins Search Optimization Algorithm) and FS-SLOA (Feature Selection Seven Spot Ladybird Optimization Algorithm) which are meta-heuristics feature selection methods, they will be combined with different classifiers to find the best subset features, which achieve the highest accuracy in classification. Then, we investigate and compare the hybridization of several filters and meta-heuristics methods, including correlations based feature selection (CFS), principal component analysis (PCA) and the X2 statistics (CHI) as part of filters methods and the genetic algorithm (GA), FS-PeSOA and FS-SLOA as part for meta-heuristics methods. For the evaluation of each approach, we explore the use of 5-fold cross validation, 10-fold cross validation and simple split data (90% for train data and 10% for test data). Finally, we present SLOA algorithm to discover classification rules, this algorithm follows Michigan’s approach. Our proposed approaches have been experimented on well known benchmark datasets (Wisconsin Breast Cancer, Pima Diabetes, Mammographic Mass, Dermatology, Colon Tumor and Prostate Cancer data sets). Experimental results prove that the classification accuracies are powerful for different data sets. Keywords: Data Mining, Classification, Feature Selection, Meta-heuristics, Penguins Search Optimization Algorithm, Seven Spot Ladybird Optimization Algorithm, KNN, SVM, NB.
Description
Doctorat en Sciences
Keywords
Citation