2023 年 5月 21 日随笔档案 - initial_h

2023年5月21日

Off-Policy Deep Reinforcement Learning without Exploration

摘要： **发表时间：**2019（ICML 2019） **文章要点：**这篇文章想说在offline RL的setting下，由于外推误差（extrapolation errors）的原因，标准的off-policy算法比如DQN，DDPG之类的，如果数据的分布和当前policy的分布差距很大的话，那就阅读全文

posted @ 2023-05-21 12:10 initial_h 阅读(131) 评论(0) 推荐(0) 编辑

initial_h

https://github.com/initial-h

公告