随笔分类 -  深度强化学习

摘要:神经网络解决连续状态空间(或者状态很多的情况) 经验回放 使得神经网络更拟合 打乱状态之间的关联 固定q 多加一个q预测值的神经网络 一段时间才会改变 以此固定q 让强化学习收敛更平稳 注意的是:因为多了固定q的方法,所以实际上有两个网络,一个model,另外一个target_model网络 mod 阅读全文
posted @ 2022-09-04 20:16 atomxing 阅读(43) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/342919579 好用的强化学习算法是? 超参数很容易调整或确定。SAC的 reward scaling 可以在训练前直接推算出来。PPO超参数的细微改变不会极大地影响训练 训练快,收敛稳、得分高。看下面的学习曲线 learning cur 阅读全文
posted @ 2022-09-04 20:15 atomxing 阅读(2494) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/374376193 首发于机器学习与强化学习 写文章 强化学习一:基本原理 贺治东 数据挖掘、深度学习、NLP、强化学习 ​关注 1 人赞同了该文章 谈到强化学习,大家最直观的印象应该就是2016-2017年AlphaGo大胜世界围棋冠军李世 阅读全文
posted @ 2022-08-31 11:47 atomxing 阅读(47) 评论(0) 推荐(0) 编辑
摘要:如何选择深度强化学习算法?MuZero/SAC/PPO/TD3/DDPG/DQN/等(2021-04) https://zhuanlan.zhihu.com/p/342919579 深度强化学习调参技巧:以D3QN、TD3、PPO、SAC算法为例 https://zhuanlan.zhihu.com 阅读全文
posted @ 2022-08-31 11:47 atomxing 阅读(249) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示