Faculté des Sciences Fès

Projet de fin d'étude : Description du contenu visuel des images

Etudiant : EL MEDHOUNE HAMZA

Filière : Master Informatique Décisionnelle et Vision Intelligente (MIDVI)

Encadrant : Pr. SABRI ABDELOUAHED

Annèe : 2022

Résumé : Le sous-titrage ou la description textuelle du contenu visuel des images consiste à décrire le contenu d'une image avec des mots. Cette tâche se situe à l'intersection de la vision par ordinateur et du traitement du langage naturel. En outre la description du contenu visuel des images demeure une tâche difficile du fait qu’elle fait appel à la fois aux algorithmes de traitement d’images et de textes. Dans ce mémoire, nous avons proposé deux implémentations pour le sous-titrage des images la première basée sur un modèle d'attention et la deuxième basée sur un modèle de transformateur. Nous avons utilisé comme jeux de données la base Flickr8K. Les hyperparamètres des modèles seront discutés de même que le type de modèle pré-entraîné utilisé pour l’extraction des caractéristiques et les composants de chaque modèle en détails. La validation des deux modèles adoptés dans ce travail sera basée sur la qualité des descriptions (sous-titres) générées en utilisant les métriques d’évaluation BLEU-1,BLEU2,BLEU-3,BLEU-4, ROUGE-L et METEOR;