Projet de fin d'étude : Réalisation d'une Base de Donnée pour la reconnaissance audiovisuelle des chiffres arabes

Etudiant : BELMEJDOUB WAFAE

Filière : LF Sciences Mathématiques et Informatique

Encadrant : Pr. SATORI HASSAN

Annèe : 2020

Résumé : La parole est l’un des moyens les plus naturels par lequel des personnes communiquent. La reconnaissance des paroles à pour objet la transformation du signal acoustique en une séquence de mots qui correspond à la phrase prononcée par un locuteur. Les systèmes qui utilisent comme entrée uniquement le signal acoustique atteignent leurs limites surtout dans des les environnements bruités (réelles). Dans ces cas, nombreux travaux sur la reconnaissance vocale ayant montré l'importance des informations visuelles pour augmenter les performances de reconnaissance automatique de la parole, l'utilisation de mouvement des lèvres du locuteur semble être une voie prometteuse pour la reconnaissance automatique. La réalisation d’un système de reconnaissance audio-visuelle permet d’augmenter les performances de système de reconnaissance de parole surtout dans des milieux bruitées. D’ailleurs l’ajout de l’information visuelle à travers d’image vidéo du locuteur nécessite l’existence d’un corpus de données audiovisuelle. L’objectif de ce travail consiste à mettre en œuvre une base de données audiovisuelle pour la langue arabe (dialecte Darija). Ce corpus contient 1900 enregistrements vidéos de 19 locuteurs (6 femmes, 13 hommes) qui ont prononce les dix chiffres arabe. Toutefois, la réalisation de cette base de données nécessite des données audio et vidéo qui ont été enregistrées simultanément. Pour ce faire, une camera mobile de résolution HD 1280*720 p a été utilisée. La première opération consiste à analyser les séquences vidéo sous Filmora9 pour les segmenter manuellement. À partir du fichier video, Les fichiers audio sont extraits, en utilisant le logiciel Format Factory, sous forme un signal de l’extension « .wav ». Dans le but d’évaluer les performances des systèmes de reconnaissance audiovisuelles, la dernière étape de préparation du corpus consiste d’extraire les frames à partir de chaque vidéo segmentée. Ces images sont utiles pour faire la détection des visages de chaque locuteur. L’implémentation du système de reconnaissance faciale est basé sur l’algorithme de Viola et Jones pour la détection de visage avec l’utilisation de la bibliothèque OpenCV .