随笔分类 - AIGC
摘要:本篇文章主要介绍 什么是Transformer, 它主要用于解决什么问题,以及依靠什么结构设计来解决这些问题 Transformer结构概览 encoder结构 decoder结构 什么是Transformer Transformer首次提出于 Attention is all you need 这
阅读全文
摘要:长度外推为在不需要对模型进行额外训练的情况下,模型可以处理更长的序列。本篇文章主要介绍目前大模型用到的一些长度外推技术,包括以RoPE为基础进行位置插值、NTK-aware、动态NTK、NTK-by-parts 和YaRN,以及LongLoRA微调技术。关于RoPE,可参见我的上一篇博客LLM学习笔
阅读全文
摘要:在Transformer模型中,位置编码(Positional Encoding)的引入是为了补充自注意力机制(Self-Attention)在捕捉序列位置信息方面的不足。自注意力机制是Transformer的核心,但它对输入序列的位置信息并不敏感。具体来说,Transformer模型对输入序列中的
阅读全文
摘要:transformer中用到的注意力机制包括self-attention(intra-attention)和传统的attention(cross-attention),本篇文章将在第一节简述这两者的差别,第二节详述self-attention机制,第三节介绍其实现 self-attention和at
阅读全文