2019 年 9月 19 日随笔档案 - hyc339408769

2019年9月19日

摘要： 1. 前言在前面的章节中我们介绍了时序差分算法（TD）和Q Learning，当状态和动作空间是离散且维数不高时可使用Q Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q Table不动作空间和状态太大十分困难。所以论文Human level control throug 阅读全文

posted @ 2019-09-19 11:08 hyc339408769 阅读(7784) 评论(0) 推荐(0) 编辑

人工智站

公告