使用深度强化学习改进POMDP

论文提出一种ADRQN架构来增强在部分可观测领域的学习表现，架构的特点在于同时考虑动作和观测作为模型的输入。

如下图中的模型所示，我们的动作和观测在经过相关的维度变换之后，共同作为LSTM的历史经验输入。这种循环结构能够集成任意长度的历史经验来更好地估计当前的状态。

整个过程如算法1所示：

实验基于Atari 2600 games，性能对比（DRQN,DDRQN,QDRQN）:
训练效果展示：

测试结果展示：

对比从POMDP to MDP 和 MDP to POMDP，模型的鲁棒性：

文章信息
原文:On Improving Deep Reinforcement Learning for POMDPs

申明:版权归原文作者及出版单位所有，如有侵权请联系删除

posted @ 2022-11-03 10:50 哆啦哆啦呦阅读(309) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 基于改进深度Q网络的自动化渗透测试系统

· 用模仿学习来学习POMDP中的信念表示

· 深度强化学习

· ddpg 论文读书笔记

阅读排行：
· Blazor Hybrid适配到HarmonyOS系统
· Obsidian + DeepSeek：免费 AI 助力你的知识管理，让你的笔记飞起来！
· 解决跨域问题的这6种方案，真香！
· 一套基于 Material Design 规范实现的 Blazor 和 Razor 通用组件库
· 分享4款.NET开源、免费、实用的商城系统

阅读目录(Content)

此页目录为空

哆啦哆啦