会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
芋圆院长
博客园
首页
新随笔
联系
订阅
管理
2024年1月4日
强化学习算法中的梯度和更新公式在代码的哪里体现?
摘要: 这些一般在算法的更新函数中体现,即训练--优化中体现。 一般以损失的形式表现,然后调用loss.backward()函数进行优化。 计算损失 反向传播 梯度下降 调用优化器的step函数实现。 如果公式中有期望那么就需要mean函数 最近看这个问题快炸了,到底要如何根据自己的更新公式判断写的代码对不
阅读全文
posted @ 2024-01-04 22:07 芋圆院长
阅读(12)
评论(0)
推荐(0)
编辑
公告