Projet de fin d'étude : Question-réponse vidéo multimodale
Etudiant : EL OUEDEGHYRY LAILA
Filière : Master Web Intelligence et Sciences des Données (WISD)
Encadrant : Pr. RIFFI JAMAL
Annèe : 2024
Résumé : Ce mémoire a été effectué afin d'exploiter le puissant modèle T5 pour générer des réponses précises. Notre objectif est de construire un modèle de QA multimodal pour les vidéos, capable d'interpréter non seulement le texte, mais aussi le contenu visuel des vidéos. Étant donné que T5 est intrinsèquement un cadre de travail texte-à-texte, traiter le contenu visuel sous forme de texte est crucial. Pour ce faire, nous utilisons Faster R-CNN pour détecter des objets uniques à partir des images des vidéos, puis nous concaténons ces objets avec le contenu contextuel de la vidéo. Les informations combinées provenant de la vidéo et de la question sont ensuite introduites dans le modèle T5, qui génère des réponses.