Projet de fin d'étude : La reconnaissance d'entités nommés dans le domaine biomedical

Etudiant : EL RHAFFOULI HAKIMA

Filière : Master Web Intelligence et Sciences des Données (WISD)

Encadrant : Pr. NFAOUI EL HABIB

Annèe : 2022

Résumé : La reconnaissance d'entités nommées est une tâche cruciale de traitement automatique du langage naturel qui extrait les entités nommées du texte. Les noms de personnes, de lieux, de date et d'heure sont des exemples d'EN dans les textes de domaine général, tandis que les noms de gènes, de protéines et de maladies sont des exemples de NE dans le domaine biomédical appelés BioNE. NER dans le domaine biomédical (BioNER) est une tâche de prétraitement importante pour de nombreuses autres tâches telles que l'extraction de relations entre les entités, la découverte de connaissances et la génération d'hypothèses. L'énorme croissance des publications dans le domaine de la recherche biomédicale rend indispensable l'application de BioNER car il est difficile d'extraire manuellement les NE. De plus, les BioNE posent plusieurs défis liés aux noms ambigus, aux synonymes, aux variations, aux NE à plusieurs mots et aux NE imbriquées. Différentes approches ont été utilisées pour BioNER, telles que les approches d'apprentissage automatique. Parmi les dernières approches de ML, les modèles basés sur le réseau de neurones artificiels sont couramment utilisés pour BioNER. Annoter l'ensemble de données pour entraîner les modèles à reconnaître et à classer les EN est une tâche cruciale dans BioNER. Dans notre projet , nous avons créé un modèle personnalisé de reconnaissance d’entité nommés avec spaCy en mettant à jour le en_core_web_md, un modèle de réseau de noronne capable de reconnaître les noms de maladies à partir d'un texte biomédical. Nous utilisons également l’approche d'apprentissage en profondeur BiLSTM pour comparer les résultats. Pour cela, nous utilisons la base de données BC5CDR-disease et NCBI.