Introduction à l'apprentissage par renforcement - Inria
27 févr. 2008 ... 18 PDM en IA. (ou décision) qui influence la dynamique de l'état, de revenu (ou
récompense) qui est associé à chacune des transitions d'état. Les MDP sont
alors des chaînes de Markov visitant les états, contrôlées par les actions et
valuées par les revenus. Résoudre un. MDP, c'est contrôler l'agent pour ...
Un extrait du document