摘要: 最近读sutton的“reinforcement learning - An introduction”的读书笔记,其实大多数更像是按照自己理解写的中文翻译,可能语言有时没有那么严谨,主观因素多一点,更像是一种和自己的对话。希望各位看官多多包涵,如果想真正理解一些,最好对照着英文原本看,也许能看出自 阅读全文
posted @ 2017-04-25 16:11 吕吕吕吕吕 阅读(513) 评论(0) 推荐(1) 编辑
摘要: 正文 区分强化学习和其他种类的学习方式最显著的特点是:在强化学习中,训练信息被用于评估动作的好坏,而不是用于指导到底该是什么动作。这也是为何需要主动去做exploration的原因。纯粹的评估性反馈可以表明一个动作的好坏、但并不能知道当前动作是否是最佳选择或者是最差选择。评估性反馈(包括evolua 阅读全文
posted @ 2017-04-25 16:10 吕吕吕吕吕 阅读(1614) 评论(0) 推荐(0) 编辑