会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
月出兮彩云归 🌙
首页
新随笔
联系
订阅
管理
2024年3月21日
发布「月出兮彩云归」的新 icon
摘要: 在某些契机下,制作了构想很久的个人 icon。
阅读全文
posted @ 2024-03-21 16:55 MoonOut
阅读(25)
评论(0)
推荐(0)
编辑
RL 基础 | Policy Gradient 的推导
摘要: 如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。
阅读全文
posted @ 2024-03-21 16:46 MoonOut
阅读(202)
评论(0)
推荐(0)
编辑
公告