Projet de fin d'étude : Extraction du Texte Arabe depuis les images en utilisant des approches de Deep Learning

Etudiant : JAI OTMAN

Filière : LF Sciences Mathématiques et Informatique

Encadrant : Pr. BERRADA ISMAIL

Annèe : 2019

Résumé : La forte augmentation de texte disponible en format numérique a fait ressortir la nécessité de concevoir et de développer des outils de résumé performants dans le but de repérer et extraire l'information pertinente sous une forme abrégée. Les textes arabes ne font pas exception quant à leur disponibilité mais ils manquent d'outils de traitements automatiques. La reconnaissance optique de caractères est un processus qui permet de convertir un texte présenté par une image numérique en un texte modifiable. Le problème de l’OCR a été exploré en profondeur pour l’alphabet latin ainsi que pour d’autres langues. Cependant, il n’y a pas beaucoup de systèmes OCR fiables disponibles pour la langue arabe. Ce mémoire traite les méthodes d’extraction du texte arabe basées sur une approche Deep Learning. L’objectif de ce projet tutoré consiste dans un premier temps en la production d’un corpus de référence pour les systèmes de segmentation des images routières à travers l’annotation d’images collectées sur le réseau routier marocain et des images extraites du web. Dans un deuxième temps, notre projet vise à appliquer des méthodes d’OCR existantes sur ce corpus.