摘要: 论文提出一种ADRQN架构来增强在部分可观测领域的学习表现,架构的特点在于同时考虑动作和观测作为模型的输入。 如下图中的模型所示,我们的动作和观测在经过相关的维度变换之后,共同作为LSTM的历史经验输入。这种循环结构能够集成任意长度的历史经验来更好地估计当前的状态。 整个过程如算法1所示: 实验基于 阅读全文
posted @ 2022-11-03 10:50 哆啦哆啦呦 阅读(276) 评论(0) 推荐(0) 编辑