2018 年 3月 12 日随笔档案 - Shiyu_Huang

2018年3月12日

Loss is its own Reward: Self-Supervision for Reinforcement Learning

摘要：作者用action, reward, state等当做lalbel，进行有监督训练。阅读全文

posted @ 2018-03-12 17:37 Shiyu_Huang 阅读(619) 评论(0) 推荐(0) 编辑

QMDP-Net: Deep Learning for Planning under Partial Observability

摘要：一篇用deep neural network做POMDP的论文阅读全文

posted @ 2018-03-12 17:23 Shiyu_Huang 阅读(604) 评论(0) 推荐(0) 编辑

LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS

摘要：任务是地图里面导航，让agent从起始点到达指定位置。用了supervised learning + reinforcement learning + lstm 用supervised learning当做辅助训练，加速rl训练，用lstm当做memory。实验表明depth constructi 阅读全文

posted @ 2018-03-12 14:55 Shiyu_Huang 阅读(588) 评论(0) 推荐(0) 编辑

黄世宇@智谱AI，OpenRL Lab负责人，强化学习，LLM，通用人工智能[OpenRL][知乎][GitHub][Linkedin]如果你对人工智能前沿感兴趣，欢迎联系并加入我们！

黄世宇@智谱AI，OpenRL Lab负责人，强化学习，LLM，通用人工智能
[OpenRL][知乎][GitHub][Linkedin]
如果你对人工智能前沿感兴趣，欢迎联系并加入我们！