摘要: DRL 教材 Chpater 11 策略梯度方法(Policy Gradient Methods) 前面介绍了很多关于 state or state-action pairs 方面的知识,为了将其用于控制,我们学习 state-action pairs 的值,并且将这些值函数直接用于执行策略和选择动 阅读全文
posted @ 2016-08-01 14:19 AHU-WangXiao 阅读(2803) 评论(0) 推荐(0) 编辑
摘要: [译] AlphaGo 的确是一个大事件 转自:http://www.jianshu.com/p/157a15de47df 字数3797 阅读696 评论0 喜欢4 作者:Michael Nielsen,源地址:https://www.quantamagazine.org/20160329-why- 阅读全文
posted @ 2016-08-01 00:47 AHU-WangXiao 阅读(338) 评论(0) 推荐(0) 编辑