随笔档案「2024年5月13日」：RETROFORMER: RETROSPECTIVE LARGE LANGUAG... - initial_h

2024年5月13日

RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

摘要：发表时间：2024(ICLR 2024) 文章要点：文章提出Retroformer,用策略梯度的方式调优prompt，更好的利用环境的reward。大体思路是学习一个retrospective LLM，将之前的轨迹和得分作为输入，得到一个新的prompt，这个prompt综合分析了之前的经验，从而提阅读全文

posted @ 2024-05-13 23:56 initial_h 阅读(273) 评论(0) 推荐(0)

initial_h

https://github.com/initial-h

公告