使用深度强化学习改进POMDP

论文提出一种ADRQN架构来增强在部分可观测领域的学习表现,架构的特点在于同时考虑动作和观测作为模型的输入。

如下图中的模型所示,我们的动作和观测在经过相关的维度变换之后,共同作为LSTM的历史经验输入。这种循环结构能够集成任意长度的历史经验来更好地估计当前的状态。

整个过程如算法1所示:

实验基于Atari 2600 games,性能对比(DRQN,DDRQN,QDRQN):
训练效果展示:

测试结果展示:

对比从POMDP to MDP 和 MDP to POMDP,模型的鲁棒性:

文章信息
原文:On Improving Deep Reinforcement Learning for POMDPs

源码:https://github.com/bit1029public/ADRQN

申明:版权归原文作者及出版单位所有,如有侵权请联系删除

posted @   哆啦哆啦呦  阅读(309)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Blazor Hybrid适配到HarmonyOS系统
· Obsidian + DeepSeek:免费 AI 助力你的知识管理,让你的笔记飞起来!
· 解决跨域问题的这6种方案,真香!
· 一套基于 Material Design 规范实现的 Blazor 和 Razor 通用组件库
· 分享4款.NET开源、免费、实用的商城系统

阅读目录(Content)

此页目录为空

点击右上角即可分享
微信分享提示