摘要:
瑞吉外卖学习总结 阅读全文
摘要:
利用基于模型的强化学习(MbRL)中组件驱动的新可学习特征来计算经验得分 阅读全文
摘要:
本文提出了用于经验回放的清醒梦(LiDER),一个概念上的新框架,允许通过利用智能体的当前策略来刷新回放体验。 阅读全文
摘要:
本文基于深度q网络算法提出了记忆高效的强化学习算法来缓解这一问题。通过将目标q网络中的知识整合Knowledge Consolidation到当前q网络中,所提算法减少了遗忘并保持了较高的样本效率。 阅读全文
Feb 2023-Replay Memory as An Empirical MDP: Combining Conservative Estimation with Experience Replay
摘要:
将 replay memory视为经验 replay memory MDP (RM-MDP),并通过求解该经验MDP获得一个保守估计。MDP是非平稳的,可以通过采样有效地更新。基于保守估计设计了价值和策略正则化器,并将其与经验回放(CEER)相结合来正则化DQN的学习。 阅读全文
摘要:
提出了Reducible Holdout Loss Selection (RHOLOSS),一种简单但有原则的技术,近似地选择那些最能减少模型泛化损失的点进行训练 阅读全文
摘要:
本文建议通过对连续transition进行线性插值来合成新的transition用于训练。为了保持构建的transition的真实性,还开发了一个鉴别器来自动指导构建过程 阅读全文
摘要:
提出了邻域混合经验回放(NMER),一种基于几何的回放缓冲区,用状态-动作空间中最近邻的transition进行插值。NMER仅通过混合transition与邻近状态-动作特征来保持trnaistion流形的局部线性近似。 阅读全文