Faculté des Sciences Fès

Projet de fin d'étude : Description d'image basée sur l'apprentissage profond

Etudiant : EL HAMMDANI AIMAD

Filière : Master Informatique Décisionnelle et Vision Intelligente (MIDVI)

Encadrant : Pr. RIFFI JAMAL

Annèe : 2022

Résumé : La réalisation d'une application efficace pour la description d'image, est importante dans le domaine de l'intelligente artificielle. En outre, la description d'image demeure une tâche très difficile, Elle relie deux domaines majeurs de l'intelligence artificielle : La vision par ordinateur et le traitement de Langage naturel. Dans ce mémoire, nous proposons une application dédiée à la description d'image dans laquelle nous avons utilisé des concepts performants du Deep Learning à savoir le Transfer Learning et trois architectures, les Transformers dans la vision par ordinateur (Vision Transformer Vit), CNN (Convolutional Neural Network) et LSTM (Long Short Term Memory). Ainsi, nous avons élaboré une étude comparative de différents modèles effectués dans ce travail et les anciens travaux développés. En effet, l’idée c’est d’extraire les caractéristiques pertinentes à partir de l’image en utilisant un model pré-entrainer sur une grande dataset (par exemple VGG16, InceptionV3, Resnet …etc.), et transmettre ses caractéristiques dans une architecture d’encoder-decoder en utilisant des architectures adoptées transformées basée principalement sur le mécanisme d’attention et CNN+LSTM.