摘要: 长度外推为在不需要对模型进行额外训练的情况下,模型可以处理更长的序列。本篇文章主要介绍目前大模型用到的一些长度外推技术,包括以RoPE为基础进行位置插值、NTK-aware、动态NTK、NTK-by-parts 和YaRN,以及LongLoRA微调技术。关于RoPE,可参见我的上一篇博客LLM学习笔 阅读全文
posted @ 2024-09-19 18:50 老张哈哈哈 阅读(435) 评论(0) 推荐(0) 编辑