会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
pprp
一开始就奔着月亮去,就算失败,也或许能收获一颗星星
博客园
首页
新随笔
联系
订阅
管理
2021年1月16日
【深度强化学习】9. Policy Gradient实现中核心部分torch.distributions
摘要: 【导语】:在深度强化学习第四篇中,讲了Policy Gradient的理论。通过最终推导得到的公式,本文用PyTorch简单实现以下,并且尽可能搞清楚torch.distribution的使用方法。代码参考了LeeDeepRl-Notes中的实现。 1. 复习 \[ \theta \leftarro
阅读全文
posted @ 2021-01-16 10:09 pprp
阅读(2699)
评论(0)
推荐(0)
编辑
公告