论文速读记录 | 2025.03
目录
- Enhancing Autonomous Vehicle Training with Language Model Integration and Critical Scenario Generation
- On the Role of Discount Factor in Offline Reinforcement Learning
- Few-Shot Preference Learning for Human-in-the-Loop RL
- Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
- DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
- Data Center Cooling System Optimization Using Offline Reinforcement Learning
Enhancing Autonomous Vehicle Training with Language Model Integration and Critical Scenario Generation
- arxiv:
- 来源:随机看到的文章。
- 主要内容:
- highway + LLM。
On the Role of Discount Factor in Offline Reinforcement Learning
- arxiv:https://arxiv.org/abs/2110.09796
- 来源:师兄的 ICML 2022 文章。
- 主要内容:
Few-Shot Preference Learning for Human-in-the-Loop RL
- arxiv:https://arxiv.org/abs/2212.03363
- 来源:原来读过的文章。
- 主要内容:
- 这是一篇 CoRL 2022 的 8 页论文,关注传统的 PbRL。
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
- arxiv:https://arxiv.org/abs/1703.03400
- 来源:这篇工作(MAML)是上一篇 few-shot preference learning 用到的主要技术。(发现 MAML 的三个作者是 Chelsea Finn、Pieter Abbeel 和 Sergey Levine,好家伙…)
- 主要内容:
DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
- open review:https://openreview.net/forum?id=2iYVBqRHK4
- 来源:合作者推荐的文章。
- 主要内容:
- preference-based index policy(?)
Data Center Cooling System Optimization Using Offline Reinforcement Learning
- arxiv:https://arxiv.org/pdf/2501.15085
- 来源:xianyuan zhan 组的新文章。
- 主要内容:
- T-symmetry。
本文作者:MoonOut
本文链接:https://www.cnblogs.com/moonout/p/18745325
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步