会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
SkyRainWind
空を見ろ。空を見続けろ。答えはそこにある。
首页
新随笔
管理
2024年3月14日
再探强化学习
摘要: 主要记录一下自己仔细学习 RL 时的感悟。记录一下防止遗忘 Q-learning 和 DQN 都是基于值函数的(如 \(V\) 和 \(Q\) 函数),而策略梯度(policy gradient)则是基于策略的。后者显式的训练一个策略,对这个策略使用梯度下降等方法。 actor-critic 本质上
阅读全文
posted @ 2024-03-14 16:35 SkyRainWind
阅读(45)
评论(1)
推荐(1)
编辑
公告