Projet de fin d'étude : Analyse de séries temporelles par apprentissage profond pour la lecture labiale phonétique
Etudiant : HAL-HOUSSINE MANAR
Filière : Master Web Intelligence et Sciences des Données (WISD)
Encadrant : Pr. MOHAMED ADNANE MAHRAZ
Annèe : 2025
Résumé : La lecture labiale automatique (lipreading) est une branche prometteuse de l’intelligence artificielle, qui vise à interpréter les mouvements des lèvres pour reconnaître la parole, sans recourir à l’audio. Elle présente de nombreuses applications, notamment dans les environnements bruyants, l’accessibilité pour les personnes malentendantes, ou encore les systèmes embarqués. Selon l’Organisation Mondiale de la Santé (OMS), plus de 430 millions de personnes souffrent actuellement de déficiences auditives dans le monde. Ce stage s’inscrit dans le cadre du développement d’une méthode rapide, robuste et indépendante de la langue pour la lecture labiale phonétique. L’approche adoptée repose sur l’extraction des points de contrôle spécifiquement localisés sur les lèvres à partir de vidéos, afin de générer des séries temporelles représentant leurs mouvements. Ces séries sont ensuite analysées à l’aide de modèles d’apprentissage profond, dans le but de classer les sons produits de manière fiable et efficace. Mon travail a consisté principalement à étudier les bases de données existantes adaptées à cette tâche, à implémenter des techniques d’extraction automatique des points de contrôle labiaux, puis à préparer les données pour un traitement ultérieur par des modèles de deep learning. Ce projet s’appuie notamment sur la transformation des vidéos en données structurées (séries temporelles) afin de rendre le processus plus rapide et moins coûteux en ressources, tout en conservant de bonnes performances de classification. Les résultats obtenus démontrent la faisabilité de cette approche et ouvrent la voie à des systèmes de lecture labiale multilingues, légers et utilisables en temps réel.