Projet de fin d'étude : Extraction et structuration intelligente d'informations à partir de documents administratifs scannés : Une approche basée sur la détection de layout et les réseaux de neurones graphiques

Etudiant : EL JHOMARI SAAD

Filière : Machine Learning Avancé et Intelligence Multimédia (MLAIM)

Encadrant : Pr. EL FAZAZY KHALID

Annèe : 2025

Résumé : Dans le cadre de mon projet de fin d'études pour l'obtention du diplôme de Master en Machine Learning Avancé et Intelligence Multimédia (MLAIM), réalisé au sein d'INDATACORE, j'ai eu l'opportunité de travailler sur un système intelligent de traitement de documents administratifs scannés nécessitant l'implémentation de solutions d'intelligence artificielle avancées pour l'extraction et la structuration automatisées d'informations. Ce projet vise à concevoir et développer une solution innovante basée sur l'intelligence artificielle pour l'extraction et la structuration automatisées de données à partir de documents administratifs scannés. En réponse aux défis posés par la gestion manuelle de ces documents et la complexité de structuration des données post-OCR, notre solution propose d'automatiser le processus complet en utilisant un pipeline hybride combinant la détection de layout via DETECTRON2, l'OCR traditionnel, et les réseaux de neurones graphiques (GNN) pour la classification intelligente des informations extraites. Cette approche multi-modale permet de transformer les résultats OCR non-structurés en données organisées au format JSON, facilitant ainsi leur exploitation ultérieure. Au sein de ce projet, j'ai été chargé de concevoir et développer un pipeline complet intégrant la détection de layout pour améliorer la compréhension contextuelle des documents, l'implémentation de réseaux de neurones graphiques pour la classification des nœuds d'information, et la génération automatique de structures JSON adaptées aux spécificités des documents administratifs marocains.