强化学习读书笔记 - 11 - off-policy的近似方法

参照

需要了解强化学习的数学符号，先看看这里：

尽管可以使用第6,7章的方法，修改成为off-policy的近似方法，但是效果不好。
主要原因是：行为策略的分布和目标策略的分布不一致。

off-policy的近似方法的研究现在处于领域的前沿。主要有两个方向：

原书这章还远远没有写完！
这章先停在这里了。

posted @ 2017-03-12 00:04 SNYang 阅读(1865) 评论(1) 收藏举报

刷新页面返回顶部