Projet de fin d'étude : Modélisation et identification des sujets(topics) à partir des données textuelles.
Etudiant : HAMADI HALA
Filière : LF Sciences Mathématiques et Informatique
Encadrant : Pr. NFAOUI EL HABIB
Annèe : 2023
Résumé : L'objectif de ce projet est d’implémenter et mettre en œuvre des techniques avancées d'apprentissage automatique et de traitement du langage naturel (NLP) pour la détection et la classification de sujets dans un ensemble de données textuelles. En utilisant des algorithmes tels que Latent Dirichlet Allocation (LDA), Analyse sémantique latente (LSA), Processus de Dirichlet hiérarchique (HDP) et Non-Negative Matrix Factorisation (NMF), nous visons à extraire les thèmes principaux et les sujets récurrents présents dans les documents textuels. De plus, nous cherchons à évaluer et comparer les modèles développés en calculant score de cohérence. Cette évaluation nous permettra de sélectionner le modèle le plus performant et le plus cohérent pour la détection des sujets. En fin de compte, ce projet vise à fournir des résultats interprétables et à permettre une compréhension approfondie des sujets et des thèmes présents dans les documents textuels. Les résultats obtenus serviront de base pour des applications ultérieures telles que la recommandation de contenus pertinents, l'analyse de sentiment et la catégorisation automatique de nouveaux documents.