2018 年 12月 18 日随笔档案 - 刘建平Pinard

2018年12月18日

摘要：在前面讲到的DQN系列强化学习算法中，我们主要对价值函数进行了近似表示，基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用，但是Value Based强化学习方法也有很多局限性，因此在另一些场景下我们需要其他的方法，比如本篇讨论的策略梯度(Policy Gradien 阅读全文

posted @ 2018-12-18 18:04 刘建平Pinard 阅读(119426) 评论(177) 推荐(14) 编辑

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

公告