LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词

LLM可以处理长达100,000个token的输入,但在生成超过2,000词的适度长度输出时仍然面临困难,因为模型的有效生成长度本质上受到其在监督微调(SFT)过程中所见样本的限制。

为解决这个问题,本文的作者引入了AgentWrite,这是一个基于代理的流程,它将超长生成任务分解为子任务,使现成的LLM能够生成超过20,000词的连贯输出。

主要贡献如下:

介绍了限制当前(长上下文)LLM输出长度的主要因素,即SFT数据中对输出长度的约束。
提出AgentWrite,使用分而治之的方法和现成的LLM自动构建具有超长输出的SFT数据。并且使用这种方法,构建了LongWriter-6k数据集。
将LongWriter-6k数据集进行SFT训练,成功地将现有模型的输出窗口大小扩展到10,000+词,同时不影响输出质量。

https://avoid.overfit.cn/post/509d148d53554a28b7532a0b8b42ec61

posted @ 2024-08-16 10:08 deephub 阅读(19) 评论(0) 编辑收藏举报

刷新页面返回顶部