Introduction à l'apprentissage par renforcement - Inria

27 févr. 2008 ... 18 PDM en IA. (ou décision) qui influence la dynamique de l'état, de revenu (ou récompense) qui est associé à chacune des transitions d'état. Les MDP sont alors des chaînes de Markov visitant les états, contrôlées par les actions et valuées par les revenus. Résoudre un. MDP, c'est contrôler l'agent pour ...


Un extrait du document