Projet de fin d'étude : Détection d’intrusion basée sur l’apprentissage automatique sur un ensemble de données multi-classes déséquilibrées à l’aide de SVMSOTE

Etudiant : AHMED JIDDOU SIDI MOHAMED

Filière : Master Web Intelligence et Sciences des Données (WISD)

Encadrant : Pr. EL BEQQALI OMAR

Annèe : 2024

Résumé : L’évolution rapide de la technologie de l’information a apporté de nombreux avantages à la société, mais elle a également entraîné une augmentation des vulnérabilités de sécurité dans les systèmes réseau. Les systèmes de détection d’intrusion (IDS) jouent un rôle crucial dans l’identification des activités malveillantes, mais ils sont confrontés à des défis en raison de jeux de données déséquilibrés. Pour résoudre le problème de déséquilibre de données, nous avons utilisé la méthode d’échantillonnage Support Vector Machine SMOTE (SVMSMOTE). Cette méthode est similaire à SMOTE, mais elle utilise l’algorithme SVM pour générer un nombre différent d’échantillons en fonction d’une estimation de la distribution locale de la classe à suréchantillonner. Dans le cadre de la sélection de caractéristiques, nous avons appliqué la méthode d’élimination récursive de caractéristiques (RFE) pour réduire le nombre de caractéristiques à considérer. De plus, nous avons employé GridSearchCV en conjonction avec la méthode Random Forest pour déterminer le nombre optimal de caractéristiques offrant la plus grande précision. Pour le modèle, nous avons implémenté plusieurs algorithmes d’apprentissage automatique, à savoir Random Forest (RF), k-nearest neighbors (KNN), Multi-layer perceptron (MLP), Voting et Stacking (KNN, RF, MLP), ainsi que XGBoost. Nous avons évalué les performances de chaque modèle en utilisant l’ensemble de données NSLKDD. Ensuite, nous avons effectué une analyse comparative des performances de notre modèle sans et avec l’utilisation de la technique de suréchantillonnage SVMSMOTE. Enfin, nous avons comparé les résultats obtenus avec ceux des modèles de référence de l’état de l’art. Mots-clés : Systèmes de détection d’intrusion, détection d’anomalies réseau, déséquilibre de données, échantillonnage, sélection de caractéristiques, SVMSMOTE, RFE, Random Forest, KNN, MLP, Voting, Stacking, XGBoost, NSL-KDD.