摘要: 1、简介 1.1、动态规划 动态规划的性质:最优子结构;无后向性 动态规划假定MDP所有信息已知,解决的是planning问题,不是RL问题 1.2、两类问题 预测问题:给定策略,给出MDP/MRP和策略,计算策略值函数 控制问题:不给策略,给出MDP/MRP,得出最优策略值函数 2、策略评估 通过 阅读全文