Projet de fin d'étude : L’Intelligence Artificielle pour l’Océrisation des Documents Arabes : Application aux Bulletins Officiels du Maroc
Etudiant : EL-MEZOURY SALMA
Filière : Master Web Intelligence et Sciences des Données (WISD)
Encadrant : Pr. EL BOURAKADI DOUNIA
Annèe : 2025
Résumé : Ce projet de fin d'études traite de l’OCR des Bulletins Officiels du Maroc en langue arabe, dont la complexité typographique (notamment l’usage de polices comme Sakkal Majalla) pose des défis aux moteurs OCR classiques. Pour y remédier, une méthode de fine-tuning du moteur Tesseract a été mise en œuvre sur un jeu de données annoté manuellement via LabelStudio, afin d’adapter le modèle aux spécificités structurelles des documents. L’évaluation du modèle entraîné montre une amélioration significative des performances, avec une précision de 99,09%, un CER moyen de 0,98% et un WER de 5,11%, contre 97,61%, 2,59% et 15,02% pour le modèle générique. Une interface utilisateur simple a également été développée pour faciliter l’exploitation du système par des non-spécialistes. Ce travail propose ainsi une solution OCR robuste et adaptée aux documents officiels arabes, ouvrant la voie à une meilleure numérisation, accessibilité et analyse des archives nationales.