2017 年 8月 17 日随笔档案 - _1024

强化学习(David Silver)5: 免模型控制

摘要： 1、简介为什么需要免模型控制 1) 有的MDP未知，但是可以采样 2) 有的MDP已知，但是空间太大，需要采样同策略学习从经历的同策略样本中学习异策略学习从类似的策略空间中采样 2、同策略MC 2.1、一般的GPI(一般策略迭代) 策略评估+策略改善 2.2、同策略MC 用MC做策略评估( 阅读全文

posted @ 2017-08-17 10:31 _1024 阅读(482) 评论(0) 推荐(0) 编辑

2017年8月17日