2020 年 9月 30 日随笔档案 - 黎明程序员

2020年9月30日

摘要：目录 Policy based方法 vs Value based方法策略网络算法总体流程如何通过对回归任务的优化来更新Q网络为什么不可以同时更新Q网络和目标网络为什么要使用带有探索策略的Q函数探索策略的数学表达 ReplayBuffer的作用 Q值被高估的问题源码实现参考资料 DQN 阅读全文

posted @ 2020-09-30 15:00 黎明程序员阅读(1193) 评论(0) 推荐(1) 编辑

黎明程序员

公告