Projet de fin d'étude : SYSTÈME ADAPTATIF DE CONTRÔLE DU SIGNAL DE TRAFIC ROUTIER BASÉ SUR L’APPRENTISSAGE PAR RENFORCEMENT PROFOND

Etudiant : ABADA YASSINE

Filière : Master Informatique Décisionnelle et Vision Intelligente (MIDVI)

Encadrant : Pr. YAHYAOUYI ALI

Annèe : 2021

Résumé : Dans ce projet nous essayons d’extraire les idées principaux, qui sont utilisés dans l’architecture informatique dans les systèmes adaptatifs, pour la gestion de circulation des véhicules au niveau de l’intersection avec une stratégie adaptative, pour optimiser le temps d’attente des véhicules, et éviter le problème de congestion de trafic, nous se basons sur ces idées, qui sont fondamentales pour résoudre le problème de la congestion de trafic à l’intersection. Nous réaliserons un algorithme adaptatif pour gérer l’état de trafic des véhicules au niveau des feux de circulation. Les systèmes adaptatifs se basent fondamentalement sur l’apprentissage par renforcement, qui est un type d’apprentissage important pour les environnements dynamiques, il est plus adapté avec les problèmes séquentiels, et il a l’avantage de sur-apprentissage et l’interaction de l’agent avec l’environnement à l’aide de la notion d’exploration et exploitation. A couse des limites de l’apprentissage par renforcement pour les systèmes adaptatifs, nous utilisons la combinaison entre l’apprentissage par renforcement et l’apprentissage profond, pour construire un algorithme plus sophistiqué et capable de traiter les états de trafic. Nous construisons un algorithme de l’apprentissage par renforcement profond, tel que nous combinaisons un modèle de l’apprentissage par renforcement se base sur l’algorithme Q-learning, avec trois modèles de l’apprentissage profond, tel que le premier modèle c’est le réseau de neurones à convolution, pour extraire les caractéristiques (features) à partir des données de l’environnement: la position, la vitesse des véhicules, et l’état des feux de trafic, puis nous utilisons un deuxième modèle de réseau de neurones récurrent (Long short-term memory), pour augmenter la performance d’extraction de caractéristiques cachés dans les données, en fin nous ajoutons une couche du réseau de neurones standard (MLP), qui produise les valeurs Q(s,a) correspondant à chaque action possible effectuée par l'agent, nous testons notre algorithme DRL aux intersections et le contrôle des feux de circulation, nous utilisons un simulateur de simulation pour urbain mobilité (SUMO). Mots-clés : Système adaptatif, Apprentissage par renforcement, Apprentissage profond, Contrôle de signal de trafic.