会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
老张哈哈哈
博客园
首页
新随笔
联系
订阅
管理
2024年9月19日
LLM学习笔记-长度外推技术
摘要: 长度外推为在不需要对模型进行额外训练的情况下,模型可以处理更长的序列。本篇文章主要介绍目前大模型用到的一些长度外推技术,包括以RoPE为基础进行位置插值、NTK-aware、动态NTK、NTK-by-parts 和YaRN,以及LongLoRA微调技术。关于RoPE,可参见我的上一篇博客LLM学习笔
阅读全文
posted @ 2024-09-19 18:50 老张哈哈哈
阅读(435)
评论(0)
推荐(0)
编辑
公告