Projet de fin d'étude : Développement d'une application mobile d'Image Captioning basée sur le Deep Learning destinée aux non-voyants
Etudiant : EL BOUTI HOUSSINE
Filière : LF Sciences Mathématiques et Informatique
Encadrant : Pr. RIFFI JAMAL
Annèe : 2024
Résumé : Ce rapport présente une analyse détaillée du processus et des résultats obtenus dans le cadre de la génération automatique de légendes pour les images, connue sous le nom de « Image Captioning ». Une technologie cruciale pour améliorer l'accessibilité pour les personnes malvoyantes. Nous explorons les fondements théoriques de la vision par ordinateur et du traitement du langage naturel, en nous concentrant sur les réseaux de neurones convolutifs (CNN) et récurrents (RNN). La méthodologie inclut l'utilisation de modèles pré-entraînés comme VGG16 et DenseNet201, intégrés avec des LSTM pour améliorer la compréhension contextuelle. L'implémentation technique utilise des outils comme Python et PyTorch, avec des jeux de données tels que Flickr8k. Les résultats montrent une comparaison détaillée des performances des modèles, soulignant les avantages et inconvénients de chacun. Enfin, le rapport conclut avec une discussion sur les perspectives d'amélioration et les futures recherches dans ce domaine.