2016 年 8月 1 日随笔档案 - AHU-WangXiao

2016年8月1日

摘要： DRL 教材　Chpater 11 策略梯度方法（Policy Gradient Methods）前面介绍了很多关于　state or state-action pairs 方面的知识，为了将其用于控制，我们学习 state-action pairs 的值，并且将这些值函数直接用于执行策略和选择动阅读全文

posted @ 2016-08-01 14:19 AHU-WangXiao 阅读(2803) 评论(0) 推荐(0) 编辑

[译] AlphaGo 的确是一个大事件

摘要： [译] AlphaGo 的确是一个大事件转自：http://www.jianshu.com/p/157a15de47df 字数3797 阅读696 评论0 喜欢4 作者：Michael Nielsen，源地址：https://www.quantamagazine.org/20160329-why- 阅读全文

posted @ 2016-08-01 00:47 AHU-WangXiao 阅读(338) 评论(0) 推荐(0) 编辑

The Blog of Xiao Wang

Associate Professor, School of Computer Science and Technology, Anhui University, Email: xiaowang@ahu.edu.cn

公告