Projet de fin d'étude : Détection de la toxicité dans les réseaux sociaux à base des méthodes d’apprentissage automatique et profond
Etudiant : TALEB MOHAMMED
Filière : Master Systèmes Intelligents et Décisionnels (MSID)
Encadrant : Pr. EN-NAHNAHI NOUREDDINE
Annèe : 2021
Résumé : L'interaction humaine via l'internet est aujourd'hui très importante, et elle ne cesse de se développer. Les commentaires sur des sites web importants, tels que les portails d'information populaires ou les plateformes de médias sociaux, constituent l'un des principaux moyens de cette interaction. Malheureusement, le comportement des utilisateurs de ces sites web devient souvent impoli ou irrespectueux, ce qui peut empêcher le fonctionnement régulier de ces sites. Nous appelons les commentaires de ces utilisateurs, "toxiques". L'objectif de cette recherche est de détecter la toxicité dans les commentaires, et en particulier de trouver les parties de ces commentaires auxquelles la toxicité peut être attribuée. Nous appelons ces parties de commentaires des spans toxiques. Pour atteindre cet objectif, nous avons implémenté et comparé des méthodes de trois catégories « machine, ensemble, et Deep Learning » fréquemment utilisées dans la classification avec des différentes représentations de textes. Les mesures que nous avons utilisées pour évaluer nos méthodes sont accuracy, recall, et F1-score. Nos expériences ont montré que les modèles d'apprentissage profond peuvent être très performants dans la tâche de détection des commentaires toxiques. Les modèles LSTM avec la représentation GloVe et LSTM avec fastText ont été capables de produire un F1 et une accuracy plus élevés par rapport aux autres modèles utilisés. Dans la deuxième partie nous avons utilisé le classifieur LSTM avec GloVe qui a obtenu une accuracy de 98% avec l’algorithme LIME pour la détection des parties toxiques. Mots clés: Machine Learning, Ensemble Learning, Deep Learning, LIME, LSTM, GloVe, fastText, accuracy, recall, F1-score.