Projet de fin d'étude : ChemTab-PFN: A Novel Transformer-Based Architecture for Interpretable Regression on Small Chemical Tabular Data

Etudiant : MEKRANY YASSINE

Filière : Master Big Data Analytics & Smart Systems (BDSaS)

Encadrant : Pr. ELABDERRAHMANI ABDELLATIF

Annèe : 2025

Résumé : Dans de nombreux domaines de la chimie et des sciences des matériaux, les données structurées apparaissent fréquemment sous forme tabulaire, avec des jeux de données de petite taille, des types de variables hétérogènes, et des dépendances complexes et non linéaires. Cette étude propose ChemTab-PFN, une nouvelle architecture basée sur les transformeurs, spécialement conçue pour traiter les tâches de régression tabulaire dans des conditions de données limitées. Le modèle combine un transformeur invariant par permutation avec un encodeur de caractéristiques inspiré d’INCE, qui intègre séparément les variables catégorielles et continues à l’aide de projections one-hot explicites et de transformations linéaires dédiées. Cette conception permet à ChemTab-PFN d’apprendre des représentations de haut niveau significatives à partir de descripteurs chimiques tout en conservant l’interprétabilité des entrées. Nous évaluons ChemTab-PFN dans des configurations de régression mono-tâche et multi-tâches, en nous concentrant sur la prédiction de la solubilité aqueuse (jeu de données ESOL) ainsi que sur la prédiction conjointe de l’efficacité de lixiviation et de la solubilité du phosphogypse dans le cadre de la récupération des éléments de terres rares (REEs). Le jeu de données REEs est issu de mesures réelles réalisées en laboratoire de chimie, offrant ainsi un banc d’essai réaliste pour l’évaluation du modèle. Sur l’ensemble des tâches, ChemTab-PFN démontre des performances prédictives solides et une bonne capacité de généralisation, même avec une supervision limitée. L’analyse des représentations montre que les embeddings appris révèlent des relations entre variables plus riches et mieux structurées que celles présentes dans les données initiales. Enfin, l’explicabilité locale via LIME met en évidence une forte cohérence entre les décisions du modèle et les connaissances chimiques établies, renforçant ainsi la transparence et la fiabilité du système.