Dimension reduction methods and artificial learning for the facial pose estimation

Loading...
Thumbnail Image
Date
2022-02-07
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Résumé (en Français) : Cette thèse exploite les avantages de la technologie de fouille de données pour extraire des informations sur la pose de la tête à partir des images du visage dans le but de construire un modèle de classification qui infère l’orientation de la pose de la tête. Notre premier objectif est de montrer l’utilité d’utiliser les techniques de fouille de données symboliques pour classer les poses du visage dans n’importe quel ensemble de données, et donc les distances symboliques efficaces à des fins de classification. Nous avons utilisé des classificateurs classiques tels que Kmeans, KNN, et SVM pour classer les poses du visage de frontale vs de profil. En outre, nous avons abordé le problème des changements d’illumination, nous avons proposé pour surmonter ces problèmes d’effectuer un prétraitement à l’image d’entrée, où nous avons utlisé l’image gradient et l’image traitée avec le Local Binary Pattern (LBP) combiné avec dynamic morphological quotient image (DMQI-LBP), qui sont des descripteurs robustes aux changements d’éclairage. Les résultats de ces expériences ont montré que notre approche est robuste et permet de classifier séparément les poses même dans des conditions dégradées. Pour le deuxième objectif, nous avons suggéré de combiner le privilège de l’apprentissage profond avec une technique de réduction de dimensionnalité assurée par la représentation de série chronologique des images pour apprendre les caractéristiques appropriées pour estimer la rotation de la pose de la tête avec un large plage d’angles (rotation de pan et tilt). Récemment, l’apprentissage profond a vécu un considérable progrès et a atteint des performances exceptionnelles dans le domaine d’estimation de la pose de la tête. Cependant, ces modèles sont coûteux en calcul en raison de la haute dimensionnalité des paramètres et des caractéristiques qui sont calculés lors de l’apprentissage (la dimension des poids est de l’ordre du milliard). La dimension de ces paramètres se progresse proportionnellement à la dimension des données d’entrée. Motivés par cet obstacle, nous avons proposé une approche basée sur l’utilisation de la réduction de dimensionnalité avec les séries temporelles. Notre modèle émule le modèle Sequence-to-Sequence (Seq2Seq), qui est conçu pour les modèles de traduction automatique. Sequence-to-Sequence est un modèle d’apprentissage profond dans lequel l’encodeur encode et apprend la relation entre les mots de la langue source pour la présenter en un vecteur et le décodeur la décode en une séquence de mots dans la langue souhaitée. Ici, les positions des visages sont équivalentes aux positions des mots dans une phrase. Il est donc utile d’analyser les positions des visages en tenant compte du contexte. Pour cette raison, nous sommes motivés par l’utilisation d’un encodeur-décodeur Seq-to-Seq dans notre implémentation. Nous avons construit un classificateur de la pose de la tête appelé SAX-RED, où les séquences symboliques SAX seraient l’entrée de l’encodeur et le décodeur génère les séquences de sortie qui présentent les labels des poses de la tête. Les mots clés : Estimation de la pose de visage, séries temporelles, encodeur-décodeur Abstract (en Anglais) : This thesis leverages data mining technologies to extract head pose information from face images to build a classification model that infers the head pose orientation. To reach this purpose, we propose the SAX2FACE approach, an effortless and efficient alternative solution that relies on a time series dimensionality reduction method (SAX method) to address the problem of head pose rotation. We have mapped face images into a one-dimensional vector as time series using the Peano-Hilbert and Sweep space-filling curves. These numerical series are then converted to symbolic sequences through symbolic aggregate approximation (SAX). Our first objective is to highlight the usefulness of using powerful symbolic data mining techniques to classify face poses in any database, and thus getting effective symbolic distances for classification purposes. We have resorted to classic classifiers such as K-means, KNN, and SVM to classify frontal vs. profile face poses. Besides, we have tackled the illumination changes problem. While we have proposed to overcome these problems by processing the input image with the gradient image and the Local Binary Pattern (LBP) combined with dynamic morphological quotient image (DMQI-LBP), which are robust descriptors to changes in illumination. The results of these experiences have shown that our approach is robust and allows us to separately classify the poses even in degraded conditions. For the second objective, we have suggested combining the expressive power of deep learning with dimensionality reduction technique with time series representation of the images for learning the suitable features to estimate the head pose rotation with a large angles range (in yaw and pitch rotation). Lately, deep learning has witnessed huge progress and has achieved exceptional resorted only to for head pose estimation models. However, it is computationally costly due to the high dimensionality of the parameters and the features that are calculated in training (the dimension of the weights is in the order of the billion). The dimension of these parameters progresses proportionally with the dimension of the input data. Spurred with this obstacle, we propose a new approach based on the use of dimensionality reduction with time series. The model emulates the sequence-to-sequence recurrent neural network that is introduced to deal with Machine Translation (NMT) model. Sequence-to-Sequence is a deep learning model that the encoder recurrent neural network encodes and learns the relationship between words of the source language to present it into a vector, and the decoder decodes it into a sequence of words in the desired language. Here, the positions of the faces are similar to the positions of the words in a sentence. Hence, analysing the positions of the faces by taking into account that the context is useful. This is why we are motivated by the use of Seq2Seq encoder–decoder in our implementation. We built a classifier of the head pose called SAX-RED, where the SAX symbolic sequences would be the input layer of the encoder, and the decoder generates the output sequences which present the labels of head pose. Keywords : head pose estimation, deep learning , symbolic aggregate approximation ,Seq2Seq
Description
Doctorat en Sciences
Keywords
Citation