摘要: 什么是Experience Replay, Seperate Target Network 最近看到的一篇论文中提到的面对RL network不稳定甚至发散两个方法。 non-linear function approximator is unstable or even to diverge. I 阅读全文
posted @ 2021-12-23 15:31 xxxuanei 阅读(103) 评论(0) 推荐(0) 编辑