bhargav-portrait-web-NB-270x360

Bhargav Teja Nallapu

A closed loop framework of decision making and learning in primate prefrontal circuits: Computational modeling and Virtual experimentation

décembre 2019 Directeur(s) de thèse : Frédéric ALEXANDRE & Thierry VIEVILLE Résumé de thèse

Cette thèse propose de construire un cadre de travail de modélisation systémique, pour aider à la compréhension de l’organisation des systèmes associant le cortex préfrontal (PFC) et les ganglions de la base (BG) et de leurs interactions fonctionnelles dans les processus de prise de décision et de comportement dirigé par les buts chez les humains. Un environnement de jeu vidéo, Minecraft, est utilisé pour concevoir des expériences. Elles visent à tester le jeu vidéo dans un environnement qui pourrait être plus complexe et réaliste, si besoin. Ce cadre, avec l’expérimentation virtuelle, forme une architecture en boucle fermée pour l’étude de comportements animaux de haut niveau. Le cadre des systèmes neuronaux de ce travail repose sur la dynamique des réseaux entre des sous-systèmes du PFC et des BG. Le PFC joue un rôle crucial dans les fonctions exécutives comme la planification, l’attention, le comportement dirigé par les buts, etc. Les BG sont un groupe de noyaux sous-corticaux qui ont fait l’objet d’études approfondies dans le domaine du contrôle moteur et de la sélection de l’action.
Différentes régions dans le PFC et les structures au sein des BG sont organisées anatomiquement, en boucles parallèles et séparées (chacune d’entre elles étant appelée une boucle CBG). Ces boucles peuvent être, à un niveau abstrait, divisées en 3 types : les boucles limbiques, les boucles associatives et les boucles sensorimotrices. Tout d’abord, un cadre global avec ces boucles parallèles a été mis en oeuvre. L’accent est mis sur les boucles limbiques. Les boucles associatives et sensori-motrices sont modélisées de manière algorithmique, à l’aide de la plateforme d’expérimentation pour le contrôle moteur. Pour ce qui concerne les boucles limbiques, le cortex orbitofrontal (OFC) représente une boucle pour estimer les préférences et la boucle du cortex cingulaire antérieur (ACC) représente les besoins internes. Le substrat correspondant de ces boucles dans les BG est le striatum ventral (VS), beaucoup étudié pour son rôle dans le codage des valeurs.  Des scénarios simples sont conçus dans l’environnement virtuel en utilisant l’agent, certains objets et des récompenses appétitives dans l’environnement. Les boucles limbiques ont été implémentées selon des modèles existants de prise de décision dans les BG.
Ainsi, le cadre théorique et la plateforme expérimentale servent de banc d’essai pour ces modèles spécifiques qui doivent s’adapter dans une perspective plus large. Ensuite, nous utilisons ce cadre pour étudier de plus près le rôle de l’OFC dans la prise de décision guidée par la valeur et le comportement dirigé par les buts. Dans le cadre de cette thèse, des observations importantes sur le rôle de l’OFC dans le comportement ont été intégrées en consolidant de nombreuses données expérimentales. Enfin, pour expliquer les résultats de rôles différents des régions latérales et médiales de l’OFC, l’architecture de calcul des boucles CBG, l’apprentissage pavlovien dans l’amygdale et les multiples indices sur les interactions amygdale-OFC-VS sont rassemblées dans un modèle unique. Les règles d’apprentissage du renforcement ont été adaptées pour tenir compte de l’attribution de responsabilité appropriée (résultat correct pour corriger le stimulus choisi) et de la différence de valeur des options de choix. En conséquence, plusieurs résultats d’expérimentation animale étudiant les rôles séparables ont été reproduits. La différence dans les erreurs de choix en fonction de la différence de valeur entre la meilleure et la deuxième meilleure option est l’une d’entre elles. Les rôles dissociables dans Transfert Instrumental Pavlovien ont également été observés.
Les recherches sur les indices observés sur l’OFC offrent une excellente base pour comprendre le processus même de prise de décision, et le calcul des valeurs en général. En explorant le domaine d’apprentissage adaptatif bio-inspiré par un agent virtuel incarné, en décrivant les principes de motivation, de sélection des buts et d’auto-évaluation, nous avons aussi mis en évidence que le domaine de l’apprentissage par renforcement et de l’intelligence artificielle a beaucoup à gagner dans l’étude du rôle des systèmes préfrontaux dans la prise de décision.

Jury

NIKOLSKI Macha – CNRS – Président
CANAMERO Lola – University of Hertfordshire, U.K – Rapporteur
BOURET Sebastien – CNRS – Rapporteur
KHAMASSI Mehdi – CNRS – Examinateur
CHAKRAVARTHY Srinivasa – I.I.T Madras, India – Examinateur
ALEXANDRE Frédéric – INRIA – Directeur de thèse
VIEVILLE Thierry – INRIA – Co-directeur de thèse

 

Etudiants

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009