摘要: 1. 前言 在前面的章节中我们介绍了时序差分算法(TD)和Q Learning,当状态和动作空间是离散且维数不高时可使用Q Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q Table不动作空间和状态太大十分困难。所以论文Human level control throug 阅读全文
posted @ 2019-09-19 11:08 hyc339408769 阅读(7588) 评论(0) 推荐(0) 编辑