LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词

LLM可以处理长达100,000个token的输入,但在生成超过2,000词的适度长度输出时仍然面临困难,因为模型的有效生成长度本质上受到其在监督微调(SFT)过程中所见样本的限制。

为解决这个问题,本文的作者引入了AgentWrite,这是一个基于代理的流程,它将超长生成任务分解为子任务,使现成的LLM能够生成超过20,000词的连贯输出。

主要贡献如下:

  • 介绍了限制当前(长上下文)LLM输出长度的主要因素,即SFT数据中对输出长度的约束。
  • 提出AgentWrite,使用分而治之的方法和现成的LLM自动构建具有超长输出的SFT数据。并且使用这种方法,构建了LongWriter-6k数据集。
  • 将LongWriter-6k数据集进行SFT训练,成功地将现有模型的输出窗口大小扩展到10,000+词,同时不影响输出质量。

https://avoid.overfit.cn/post/509d148d53554a28b7532a0b8b42ec61

posted @   deephub  阅读(25)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
历史上的今天:
2023-08-16 Prompt、RAG、微调还是重新训练?如何选择正确的生成式AI的使用方法
2022-08-16 贝叶斯自举法Bayesian Bootstrap
点击右上角即可分享
微信分享提示