Les missions du poste

Description du Poste Sujet De Thèse Ce projet de doctorat propose de considérer la recherche d'une politique optimale en apprentissage par renforcement comme un problème de classification, en exploitant la structure géométrique selon laquelle les actions optimales partitionnent l'espace des états. Plutôt que d'apprendre des fonctions de valeur complètes, l'idée est d'apprendre directement les frontières où deux actions deviennent équivalentes, lesquelles définissent les régions dans lesquelles chaque action est optimale. Le projet débute par un cadre simple à deux dimensions et deux actions afin d'étudier comment ces frontières de décision peuvent être apprises efficacement, d'abord via des mises à jour basées sur des seuils, puis à l'aide de fonctions de frontière paramétrées. Il généralise ensuite cette approche à des espaces d'états et d'actions de dimension plus élevée en utilisant des méthodes basées sur le gradient et des approximateurs de fonctions tels que des modèles linéaires ou des réseaux de neurones. En se concentrant sur l'apprentissage de ces frontières plutôt que sur celui des fonctions de valeur complètes, le projet vise à développer des algorithmes d'apprentissage par renforcement nécessitant moins de données et convergeant plus rapidement. Votre Environnement de Travail Le poste est basé à l'IRIT (Institut de Recherche en Informatique de Toulouse), un laboratoire majeur en informatique regroupant plusieurs centaines de chercheurs et doctorants. Le doctorant sera accueilli au sein du département ASR (Architecture, Systèmes et Réseaux), dont les thématiques couvrent notamment les réseaux, les systèmes distribués et l'apprentissage automatique appliqué aux systèmes. Le projet s'inscrit dans un environnement scientifique dynamique, avec des collaborations possibles avec plusieurs chercheurs du laboratoire travaillant sur l'apprentissage par renforcement et les systèmes en réseau, ainsi qu'avec l'écosystème toulousain de recherche en intelligence artificielle, notamment dans le cadre de la chaire ANITI dédiée à l'apprentissage par renforcement. Rémunération et avantages Rémunération La rémunération est d'un minimum de 2300,00 € mensuel Congés et RTT annuels 44 jours Pratique et Indemnisation du TT Pratique et indemnisation du TT Transport Prise en charge à 75% du coût et forfait mobilité durable jusqu'à 300€ À propos de l'offre Référence de l'offre UMR5505-CHLBOU-106 Section(s) CN / Domaine de recherche Sciences informatiques : fondements de l'informatique, calculs, algorithmes, représentations, exploitations À propos du CNRS Le CNRS est un acteur majeur de la recherche fondamentale à une échelle mondiale. Le CNRS est le seul organisme français actif dans tous les domaines scientifiques. Sa position unique de multi-spécialiste lui permet d'associer les différentes disciplines pour affronter les défis les plus importants du monde contemporain, en lien avec les acteurs du changement. Le CNRS Les métiers de la recherche

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

Recherches similaires

L’emploi par métier dans le domaine Informatique à Toulouse