会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
initial_h
https://github.com/initial-h
博客园
首页
新随笔
管理
2021年10月11日
Decoupling Value and Policy for Generalization in Reinforcement Learning
摘要: **发表时间:**2021(ICML2021) **文章要点:**这篇文章想说,通常在训练PG这类算法特别是图像作为输入的任务的时候,主流的做法是policy和value用一个网络表征,没有分开。这会导致policy overfitting,因为学value比学policy需要更多的信息,如果用一个
阅读全文
posted @ 2021-10-11 11:36 initial_h
阅读(194)
评论(0)
推荐(0)
编辑
公告