02 2019 档案

强化学习(十七) 基于模型的强化学习与Dyna算法框架

摘要：在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL)，本篇我们讨论最后一种强化学习流派，基于模型的强化学习(Model Based RL)，以及基于模型的强化学习算法框架Dyna。本篇主要参考了UCL强化学习课程的第8讲和Dy 阅读全文

posted @ 2019-02-15 20:22 刘建平Pinard 阅读(24908) 评论(26) 推荐(2) 编辑

强化学习(十六) 深度确定性策略梯度(DDPG)

摘要：在强化学习(十五) A3C中，我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题，今天我们不使用多线程，而是使用和DDQN类似的方法：即经验回放和双网络的方法来改进Actor-Critic难收敛的问题，这个算法就是是深度确定性策略梯度(Deep Deterministic Poli 阅读全文

posted @ 2019-02-01 19:42 刘建平Pinard 阅读(121008) 评论(318) 推荐(24) 编辑

公告

★珠江追梦，饮岭南茶，恋鄂北家★

你的支持是我写作的动力：

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

02 2019 档案

公告

积分与排名

随笔分类 (135)

随笔档案 (135)

常去的机器学习网站

阅读排行榜

评论排行榜

推荐排行榜