摘要: 0、为什么免模型学习? 0、为什么免模型学习? 在已知的MDP中,可以使用DP来计算求解RL 但是在未知MDP中,没有转移函数,不能直接求解,此时MDP未知,需要使用采样方法,也就是本课中的Model-Free方法 PS:课程中迭代的值是值函数;周志华老师的西瓜书中迭代的是状态值函数;课程中迭代的是 阅读全文