2023 年 5月 23 日随笔档案 - lee_ing

摘要：将 replay memory视为经验 replay memory MDP (RM-MDP)，并通过求解该经验MDP获得一个保守估计。MDP是非平稳的，可以通过采样有效地更新。基于保守估计设计了价值和策略正则化器，并将其与经验回放(CEER)相结合来正则化DQN的学习。阅读全文

posted @ 2023-05-23 18:07 lee_ing 阅读(61) 评论(0) 推荐(0) 编辑

Lee_ing