Projet de fin d'étude : Contribution à la reconnaissance optique (OCR) du texte arabe imprimé

Etudiant : BOUGUENINE CHAIMAA

Filière : Master Big Data Analytics & Smart Systems (BDSaS)

Encadrant : Pr. LOQMAN CHAKIR

Annèe : 2023

Résumé : Des efforts considérables ont été déployés pour le développement des systèmes optique de reconnaissance de caractères, par la communauté des chercheurs. Puisque le système (OCR) est un élément essentiel de nombreuses applications du monde réel telles que l’archivage numérique, la reconnaissance automatique des plaques d’immatriculation, les chèques, etc. Le but de ce projet est l’implémentation d’un AOCR (Arabic Optical Character Recognition). La segmentation et la classification sont les opérations cœur des (OCR) en général. La nature cursive des caractères Arabe biaise les résultats finaux de la reconnaissance. Les caractères non segmentés ou sur- segmentés conduisent à de mauvais résultats. C’est pour cela que la segmentation dans les AOCR est un sérieux problème de recherche. La segmentation d’un texte Arabe comprend 3 niveaux, à savoir la segmentation en ligne, en pseudo-mots et en caractères. Au cours de notre projet, nous avons choisi les techniques de projection avec d’autres techniques pour faire la segmentation des 3 niveaux respectivement. D’autre part, les caractères segmentés sont transmis en entrée de réseau neuronal convolutif pour l’extraction et la reconnaissance de caractéristiques. Au cours de notre projet, nous avons aussi discuté quelques problèmes liés à la langue Arabe et le problème de l’absence d’une base de données de caractères standardisait, et étudier d’autre module concernant les OCR, à savoir l’acquisition des données, le prétraitement et l’extraction des caractéristiques. Les résultats d’implémentation sont prometteurs.