Faculté des Sciences Fès

Projet de fin d'étude : Question-réponse vidéo multimodale

Etudiant : EL OUEDEGHYRY LAILA

Filière : Master Web Intelligence et Sciences des Données (WISD)

Encadrant : Pr. RIFFI JAMAL

Annèe : 2024

Résumé : Ce mémoire a été effectué afin d'exploiter le puissant modèle T5 pour générer des réponses précises. Notre objectif est de construire un modèle de QA multimodal pour les vidéos, capable d'interpréter non seulement le texte, mais aussi le contenu visuel des vidéos. Étant donné que T5 est intrinsèquement un cadre de travail texte-à-texte, traiter le contenu visuel sous forme de texte est crucial. Pour ce faire, nous utilisons Faster R-CNN pour détecter des objets uniques à partir des images des vidéos, puis nous concaténons ces objets avec le contenu contextuel de la vidéo. Les informations combinées provenant de la vidéo et de la question sont ensuite introduites dans le modèle T5, qui génère des réponses.