Approches Méta-Heuristiques pour les Tâches de Classification
Loading...
Date
2018-06-18
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Résumé (Français ) :
Dans l’exploration de données, de nombreuses techniques sont utilisées pour extraire des informations utiles. L’une de ces techniques est la classification, la classification de volume massif de données est une tâche complexe en raison entre autres la présence d’attributs redondants et non pertinents. Pour obtenir les meilleurs modèles de classification, la sélection d’attributs est devenue une étape essentielle du prétraitement des données.
Dans cette thèse, nous présentons deux nouveaux algorithmes adaptatifs appelés FSPeSOA (feature selection penguins search optimization algorithm) et FS-SLOA (feature selection seven spot ladybird optimization algorithm) qui sont des méthodes de sélection méta-heuristiques. Ils seront combinés avec différents classificateurs pour trouver les meilleures attributs, qui atteignent la plus grande précision dans la classification. Ensuite, nous étudions et comparons l’hybridation de plusieurs méthodes de filtrages et de méta-heuristiques, y compris la sélection d’attributs basée sur les corrélations (CFS), l’analyse de composantes principales (PCA) et les statistiques X2 (CHI) comme méthodes de filtrages et l’algorithme génétique (GA), FS-PeSOA et FS-SLOA comme méthodes méta-heuristiques. Pour l’évaluation de chaque approche, nous explorons l’utilisation de la validation croisée 5 fois, de la validation croisée 10 fois et la division simple de donné (90% pour les données d’apprentissage et 10% pour les données de test).
Enfin, nous présentons l’algorithme SLOA pour découvrir les règles de classification, cet algorithme suit l’approche du Michigan. Nos approches proposées ont été expérimentées sur des ensembles de données de référence (Wisconsin Breast Cancer, Diabète Pima, Mammographie Mass, Dermatologie, Colon Tumor et Cancer de la Prostate). Les résultats expérimentaux prouvent que les précisions de classification sont puissantes pour les différents ensembles de données.
Résumé (Anglais) :
In data mining, many techniques are used to extract useful information. One of these
techniques is the classification, the classification of the massive volume of data is a complex
task due to the presence of redundant and irrelevant features. To obtain the best
classification models, feature selection became an essential data pre-processing step.
In this thesis, we first present two new adaptive algorithms called FS-PeSOA (Feature
Selection Penguins Search Optimization Algorithm) and FS-SLOA (Feature Selection
Seven Spot Ladybird Optimization Algorithm) which are meta-heuristics feature selection
methods, they will be combined with different classifiers to find the best subset
features, which achieve the highest accuracy in classification. Then, we investigate and
compare the hybridization of several filters and meta-heuristics methods, including correlations
based feature selection (CFS), principal component analysis (PCA) and the X2
statistics (CHI) as part of filters methods and the genetic algorithm (GA), FS-PeSOA
and FS-SLOA as part for meta-heuristics methods. For the evaluation of each approach,
we explore the use of 5-fold cross validation, 10-fold cross validation and simple split
data (90% for train data and 10% for test data).
Finally, we present SLOA algorithm to discover classification rules, this algorithm follows
Michigan’s approach. Our proposed approaches have been experimented on well
known benchmark datasets (Wisconsin Breast Cancer, Pima Diabetes, Mammographic
Mass, Dermatology, Colon Tumor and Prostate Cancer data sets). Experimental results
prove that the classification accuracies are powerful for different data sets.
Keywords: Data Mining, Classification, Feature Selection, Meta-heuristics, Penguins
Search Optimization Algorithm, Seven Spot Ladybird Optimization Algorithm, KNN,
SVM, NB.
Description
Doctorat en Sciences