Projet de fin d'étude : Prediction des accidents vasculaires cerebraux a l'aid de modeles tarditionnels de Machine Learning
Etudiant : SADDIK ABDELHAMID
Filière : LF Sciences Mathématiques et Informatique
Encadrant : Pr. BENLAHBIB ABDESSAMAD
Annèe : 2024
Résumé : Les AVC sont l'une des principales causes de décès et d'incapacités dans le monde, nécessitant une identification précoce et précise des facteurs de risque pour la prévention et la gestion efficace de cette maladie. Les techniques de prédiction basées sur le machine Learning offrent une approche prometteuse pour anticiper les AVC chez les individus à risque. Dans cette étude, nous explorons l'utilisation de modèles traditionnels de machine Learning pour prédire les AVC, en mettant l'accent sur l'implémentation des modèles Decision Tree Classifier, Logistic Regression, Support Vector Machine (SVM) et Extreme Gradient Boosting (XGBoost), tout en abordant le défi du déséquilibre entre les classes à l'aide de l'approche SMOTE. Nous avons utilisé la méthodologie suivante pour atteindre notre objectif : 1. Nous avons utilisé un ensemble de données comprenant des informations démographiques, médicales et de style de vie de patients, ainsi que des indicateurs de risque d'AVC. 2. Prétraitement des données : Les données ont été nettoyées, manquantes ont été gérées et les caractéristiques ont été normalisées pour garantir la qualité des données. 3. Implémentation des modèles : Decision Tree Classifier : Un arbre de décision a été entraîné pour classifier les individus en fonction de leur risque d'AVC. Logistic Regression : Un modèle de régression logistique a été entraîné pour modéliser la probabilité d'occurrence d'un AVC. SVM : Nous avons utilisé un Support Vector Machine pour classer les individus en deux catégories : à risque d'AVC ou non. XGBoost : Un modèle de gradient boosting a été utilisé pour classifier les individus en fonction de leur risque d'AVC. 4. Gestion du déséquilibre des classes : Nous avons appliqué l'approche (Synthetic Minority Over-sampling Technique) SMOTE pour équilibrer les classes minoritaires dans l'ensemble de données, améliorant ainsi la capacité des modèles à prédire les AVC chez les individus à risque. Les performances de chaque modèle ont été évaluées à l'aide de mesures telles que le score F1 et la matrice de confusion. Les résultats ont montré que l'approche SMOTE a significativement amélioré la capacité des modèles à prédire les AVC, en particulier pour les classes minoritaires. Le modèle Logistic Regression a démontré les meilleures performances, suivi de près par le SVM. Cette étude confirme l'efficacité des modèles traditionnels de machine Learning dans la prédiction des AVC. L'utilisation de l'approche SMOTE pour traiter le déséquilibre des classes a permis d'améliorer les performances de prédiction, offrant ainsi un outil précieux pour l'identification précoce des individus à risque d'AVC et la mise en œuvre de mesures préventives appropriées. Des recherches futures pourraient explorer d'autres techniques de prétraitement des données et l'intégration de caractéristiques supplémentaires pour améliorer davantage la précision des modèles de prédiction des AVC.