Projet de fin d'étude : AI-Powered Multimodal Travel Assistant

Etudiant : SALIM MINA

Filière : Master Mathématiques Appliquées et Science des données (MASD)

Encadrant : Pr. RIFFI JAMAL

Annèe : 2025

Résumé : Le projet présente le développement d’un assistant de voyage intelligent basé sur l’intelligence artificielle, combinant raisonnement multimodal, planification par agents et visualisation géospatiale interactive, afin d’offrir une expérience de voyage unifiée et intelligente. Le système prend en charge les requêtes visuelles, textuelles ou combinées (image + texte), permettant une interaction naturelle et flexible. Au cœur du système, on implémente une approche de génération augmentée par récupération multimodale (Multimodal RAG), dans laquelle les entrées visuelles et textuelles sont encodées dans un espace vectoriel partagé à l’aide de CLIP. Le moteur de recherche sémantique FAISS permet de retrouver les contenus les plus pertinents, qui sont ensuite transmis à LLaVA — un modèle génératif vision-langage — pour une compréhension contextuelle et un questionnement intelligent. Pour la planification d’itinéraires, le système exploite des agents intelligents CrewAI spécialisés dans l’hébergement, la restauration et l’organisation de circuits touristiques. Ces agents collaborent en récupérant des données en temps réel via des API (comme SerpAPI), puis génèrent un itinéraire structuré jour par jour. Une interface cartographique interactive, développée avec Folium, permet de visualiser les lieux détectés, les points d’intérêt à proximité et les trajets optimisés. Le système prend également en charge les questions de suivi, en ancrant le dialogue dans le contexte visuel et géographique. Les contributions clés de ce projet incluent : Une architecture RAG multimodale intégrant CLIP, FAISS et LLaVA, La prise en charge des requêtes visuelles, textuelles et multimodales, Une recherche sémantique contextuelle et un questionnement ancré visuellement, Une planification d’itinéraires par agents intelligents avec des données en temps réel, Une interface utilisateur fluide alliant découverte visuelle, dialogue et exploration cartographique. Ce travail démontre comment la combinaison de la récupération multimodale, du raisonnement génératif et de l’intelligence agentique peut combler le fossé entre l’inspiration visuelle et la planification de voyage concrète.