LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词

LLM可以处理长达100,000个token的输入,但在生成超过2,000词的适度长度输出时仍然面临困难,因为模型的有效生成长度本质上受到其在监督微调(SFT)过程中所见样本的限制。

为解决这个问题,本文的作者引入了AgentWrite,这是一个基于代理的流程,它将超长生成任务分解为子任务,使现成的LLM能够生成超过20,000词的连贯输出。

主要贡献如下:

  • 介绍了限制当前(长上下文)LLM输出长度的主要因素,即SFT数据中对输出长度的约束。
  • 提出AgentWrite,使用分而治之的方法和现成的LLM自动构建具有超长输出的SFT数据。并且使用这种方法,构建了LongWriter-6k数据集。
  • 将LongWriter-6k数据集进行SFT训练,成功地将现有模型的输出窗口大小扩展到10,000+词,同时不影响输出质量。

https://avoid.overfit.cn/post/509d148d53554a28b7532a0b8b42ec61

posted @ 2024-08-16 10:08  deephub  阅读(19)  评论(0编辑  收藏  举报