摘要: 1、简介 为什么需要免模型控制 1) 有的MDP未知,但是可以采样 2) 有的MDP已知,但是空间太大,需要采样 同策略学习 从经历的同策略样本中学习 异策略学习 从类似的策略空间中采样 2、同策略MC 2.1、一般的GPI(一般策略迭代) 策略评估+策略改善 2.2、同策略MC 用MC做策略评估( 阅读全文