摘要:
发表时间:2024 文章要点:文章对LLM增强强化学习(LLM-enhanced RL)的现有文献进行了总结。在agent-environment交互的范式下,讨论LLM对RL算法的帮助。 文章先给出LLM-enhanced RL的概念:the methods that utilize the mu 阅读全文
摘要:
发表时间:2016(ICLR 2016) 文章要点:这篇文章提出了很经典的experience replay的方法PER,通过temporal-difference (TD) error来给采样赋权重(Sequences associated with rewards appear to be re 阅读全文