会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
lepeCoder
杨柳岸小鹏残月个人博客
管理
2020年3月27日
强化学习 策略梯度
摘要: 策略梯度 value based的强化学习方法对价值函数进行了近似表示,policy based使用了类似的思路,策略$\pi$可以被描述为一个包含参数$\theta$的函数 $$ \pi_{\theta}(s, a)=P(a | s, \theta) \approx \pi(a | s) $$ 我
阅读全文
posted @ 2020-03-27 19:35 lepeCoder
阅读(761)
评论(0)
推荐(0)
编辑
公告