Projet de fin d'étude : MATERIAL KNOWLEGDE CAPTURE FOR FAIR DATA
Etudiant : CHATOUI IMANE
Filière : Master Web Intelligence et Sciences des Données (WISD)
Encadrant : Pr. EL FAZAZY KHALID
Annèe : 2024
Résumé : L'identification des tendances émergentes et des percées technologiques dans le domaine des matériaux, la définition de critères de performance pour les nouveaux matériaux, l'identification des limites des matériaux actuels ainsi que des besoins spécifiques de l'industrie sont des tâches cruciales pour l'innovation technologique. Cependant, l'extraction d'informations pertinentes devient de plus en plus complexe face à l'explosion exponentielle des publications scientifiques. L'objectif de ce rapport est d'explorer des méthodes efficaces pour extraire des informations pertinentes à partir d'articles scientifiques tout en respectant les principes FAIR (Findable, Accessible, Interoperable, Reusable) data. Le stage étudiera l'utilisation du modèle du grand langage (LLM) et de l'ingénierie de prompts pour permettre aux experts en matériaux d'utiliser le LLM afin d'extraire de manière entièrement automatique des données sur les matériaux à partir de la littérature scientifique. Dans un premier temps, nous avons évalué un outil prototype, développé par le CEA Leti, qui a le grand avantage de permettre l'utilisation du LLM à travers une interface conviviale dans un mode local préservant la confidentialité des données du CEA. Cette évaluation a été réalisée à l'aide de requêtes utilisateur "prompt" pour mesurer la performance de l'extraction d'information. Nous avons ensuite élaboré un workflow cohérent prenant en compte les résultats de l'évaluation. Ce workflow sera développé indépendamment de l'outil CEA en raison de son manque de documentation. Les outils les plus adaptés seront sélectionnés sur la base d'études comparatives, en tenant compte de l'amélioration des LLM dans l'extraction des données sur les matériaux, avant l'intégration du workflow dans l'outil CEA.