Projet de fin d'étude : Approches multimodales pour le Retrieval-Augmented Generation (RAG): Vers une génération de contenu enrichie par la fusion de textes, images et vidéos.
Etudiant : ELMAHDAOUI ABDELGHANI
Filière : Master Big Data Analytics & Smart Systems (BDSaS)
Encadrant : Pr. RIFFI JAMAL
Annèe : 2025
Résumé : Face à l'expansion rapide du marché de l'apprentissage des langues en ligne, ce projet explore le potentiel des approches multimodales, combinant les Large Language Models (LLMs), les Vision-Language Models (VLMs) et des techniques d'analyse vidéo, au sein d'une architecture Retrieval-Augmented Generation (RAG). Le système développé intègre cinq assistants spécialisés : de Prononciation, de Conversation, de Compréhension orale, de Rédaction, et d’analyse vidéo. Chacun de ces modules est conçu pour offrir une expérience d'apprentissage personnalisée, s'adaptant au niveau et à la langue de l'apprenant(fr/eng). L'approche multimodale permet d'enrichir la génération de contenu pédagogique, allant de la transcription et l’analyse vidéo à la création d'exercices structurés et à la fourniture de feedbacks nuancés. Des méthodologies d'évaluation rigoureuses ont été mises en œuvre, incluant une évaluation qualitative détaillée des assistants et des benchmarks fonctionnels, notamment pour la synthèse vidéo comparée à des références humaines et des solutions existantes. Les résultats obtenus démontrent que cette approche améliore significativement la pertinence, la précision et l'adaptabilité des outils d'apprentissage linguistique, offrant une expérience immersive et interactive. Cependant, le projet a également identifié des limites claires. La détection des erreurs phonétiques est encore approximative et sensible aux bruits ambiants. Les scénarios de conversation pourraient bénéficier d'une progression de difficulté plus fine. L'assistant de rédaction peut occasionnellement présenter des hallucinations dans ses corrections. Plus globalement, la performance de tous les assistants est actuellement limitée par la taille et la qualité de la base de données RAG. En perspective, le projet ouvre la voie à des améliorations substantielles. Celles-ci incluent le fine-tuning de modèles acoustiques comme HuBERT ou Wav2Vec pour une détection de prononciation plus fine, l'utilisation de modèles de Reinforcement Learning (PPO, GRPO et DPO) pour améliorer la qualité des réponses des LLM et réduire les hallucinations, l'augmentation significative de la qualité et de la quantité du RAG, et le développement d'un suivi personnalisé de la progression des apprenants via des graphiques et comptes utilisateurs. Ces avancées permettront au système d'évoluer vers une plateforme encore plus robuste, personnalisée et intelligente, renforçant ainsi sa position à la pointe de l'innovation en EdTech.