摘要:
作者用action, reward, state等当做lalbel,进行有监督训练。 阅读全文
摘要:
一篇用deep neural network做POMDP的论文 阅读全文
摘要:
任务是地图里面导航,让agent从起始点到达指定位置。 用了supervised learning + reinforcement learning + lstm 用supervised learning当做辅助训练,加速rl训练,用lstm当做memory。实验表明depth constructi 阅读全文