Projet de fin d'étude : Modélisation et identification des sujets (topics) à partir des données textuelles

Etudiant : ELHALOUI GHITA

Filière : LF Sciences Mathématiques et Informatique

Encadrant : Pr. NFAOUI EL HABIB

Annèe : 2023

Résumé : L'objectif de ce projet est d’implémenter et mettre en œuvre des techniques avancées d'apprentissage automatique et de traitement du langage naturel (NLP) pour la détection et la classification de sujets dans un ensemble de données textuelles. En utilisant des algorithmes tels que Latent Dirichlet Allocation (LDA), Analyse sémantique latente (LSA), Processus de Dirichlet hiérarchique (HDP) et Non-Negative Matrix Factorisation (NMF), nous visons à extraire les thèmes principaux et les sujets récurrents présents dans les documents textuels. De plus, nous cherchons à évaluer et comparer les modèles développés en calculant score de cohérence. Cette évaluation nous permettra de sélectionner le modèle le plus performant et le plus cohérent pour la détection des sujets. En fin de compte, ce projet vise à fournir des résultats interprétables et à permettre une compréhension approfondie des sujets et des thèmes présents dans les documents textuels. Les résultats obtenus serviront de base pour des applications ultérieures telles que la recommandation de contenus pertinents, l'analyse de sentiment et la catégorisation automatique de nouveaux documents