2024 年 6月 11 日随笔档案 - initial_h

2024年6月11日

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

摘要：发表时间：2024(ICLR2024) 文章要点：文章提出用预训练的视觉语言模型作为zero-shot的reward model（VLM-RMs）。好处在于可以通过自然语言来给定一个具体的任务，通过VLM-RMs让强化学习基于reward学习这个任务（using pretrained vision 阅读全文

posted @ 2024-06-11 11:15 initial_h 阅读(83) 评论(0) 推荐(0) 编辑

initial_h

https://github.com/initial-h

公告