2019 年 2月 1 日随笔档案 - 刘建平Pinard

2019年2月1日

摘要：在强化学习(十五) A3C中，我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题，今天我们不使用多线程，而是使用和DDQN类似的方法：即经验回放和双网络的方法来改进Actor-Critic难收敛的问题，这个算法就是是深度确定性策略梯度(Deep Deterministic Poli 阅读全文

posted @ 2019-02-01 19:42 刘建平Pinard 阅读(119542) 评论(318) 推荐(24) 编辑

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

公告