摘要: 作者用action, reward, state等当做lalbel,进行有监督训练。 阅读全文
posted @ 2018-03-12 17:37 Shiyu_Huang 阅读(619) 评论(0) 推荐(0) 编辑
摘要: 一篇用deep neural network做POMDP的论文 阅读全文
posted @ 2018-03-12 17:23 Shiyu_Huang 阅读(597) 评论(0) 推荐(0) 编辑
摘要: 任务是地图里面导航,让agent从起始点到达指定位置。 用了supervised learning + reinforcement learning + lstm 用supervised learning当做辅助训练,加速rl训练,用lstm当做memory。实验表明depth constructi 阅读全文
posted @ 2018-03-12 14:55 Shiyu_Huang 阅读(588) 评论(0) 推荐(0) 编辑