Projet de fin d'étude : Classification d'actions humaines utilisant une architecture avancée basée sur Swin Transformer.
Etudiant : ES-SAIH ZAKARIA
Filière : Master Big Data Analytics & Smart Systems (BDSaS)
Encadrant : Pr. MOHAMED ADNANE MAHRAZ
Annèe : 2025
Résumé : La reconnaissance automatique des actions humaines dans les vidéos constitue aujourd’hui un domaine de recherche stratégique, soutenu par l’explosion massive des flux vidéo issus notamment des réseaux sociaux, de la surveillance intelligente et des systèmes interactifs. Bien que les progrès scientifiques aient permis d’importants sauts de performance, cette tâche reste confrontée à de multiples défis : forte variabilité intra-classe, confusion entre actions similaires, conditions de captation hétérogènes et modélisation complexe des motifs spatio-temporels. Face à ces enjeux, ce projet de fin d’études explore et compare plusieurs architectures d’apprentissage profond pour la classification d’actions humaines, en mettant particulièrement l’accent sur une approche récente : le Swin Video Transformer (Swin-T). Inspiré des Transformers appliqués à la vision, le Swin-T exploite un mécanisme d’attention hiérarchique et local basé sur des fenêtres glissantes décalées, permettant de capturer efficacement les structures spatiotemporelles tout en maîtrisant la complexité computationnelle. Pour évaluer ses performances, le Swin-T a été comparé à trois architectures de référence : I3D, R(2+1)D et ResNet18 couplé à un LSTM, sur deux jeux de données standards : UCF101 et HMDB51. Les résultats confirment la supériorité du Swin-T sur ces benchmarks, grâce à sa capacité à modéliser conjointement les relations spatiales et temporelles complexes. En complément, une stratégie d’ensemble Learning par empilement a été testée pour combiner les prédictions des modèles étudiés, montrant qu’une telle approche permet d’améliorer la précision, notamment sur des données plus complexes et bruitées.