Projet de fin d'étude : Reconstruction 3D par fusion deep learning et stéréovision

Etudiant : ZOUICHA YASSINE

Filière : LF Sciences Mathématiques et Informatique

Encadrant : Pr. SATORI KHALID

Annèe : 2025

Résumé : Ce projet présente une méthode basée sur l'apprentissage profond pour générer un nuage de points 3D à partir d'une paire d'images stéréoscopiques, sans avoir recours aux paramètres explicites des caméras. L’approche proposée combine plusieurs techniques avancées de vision par ordinateur et de réseaux de neurones pour reconstruire la structure 3D d’une scène. Dans un premier temps, un réseau de neurones convolutifs (CNN) est utilisé pour extraire des représentations de haut niveau à partir des images gauche et droite. Ces caractéristiques capturent des informations spatiales et contextuelles essentielles des deux vues. Ensuite, un mécanisme d’attention multi-tête (multihead attention) permet d’établir des correspondances précises entre les deux ensembles de caractéristiques, facilitant l’estimation de la disparité. Une fois les correspondances établies, un réseau de neurones à graphes (GNN) est utilisé pour déduire la géométrie 3D de la scène. En modélisant les correspondances sous forme de graphe, le GNN propage l’information à travers les noeuds et les arêtes pour calculer avec précision la position de chaque point dans l’espace, produisant ainsi un nuage de points dense et cohérent. L’un des principaux avantages de cette méthode réside dans le fait qu’elle ne nécessite pas les paramètres intrinsèques ou extrinsèques des caméras. Le système apprend à estimer la profondeur et les relations spatiales directement à partir des données d'image, ce qui le rend plus flexible et adapté à des scénarios réels où les métadonnées des caméras peuvent être absentes. Le modèle est entraîné de bout en bout à l’aide de jeux de données contenant des paires d’images stéréoscopiques et leurs nuages de points 3D de référence. La fonction de perte guide l’apprentissage en minimisant l’écart entre la prédiction et la vérité terrain. En combinant la puissance des CNN pour l’extraction de caractéristiques, des mécanismes d’attention pour la mise en correspondance, et des GNN pour la modélisation 3D, cette méthode propose une alternative efficace et moderne pour la reconstruction 3D à partir de la vision stéréoscopique.