随笔分类 -  AIGC

摘要:本篇文章主要介绍 什么是Transformer, 它主要用于解决什么问题,以及依靠什么结构设计来解决这些问题 Transformer结构概览 encoder结构 decoder结构 什么是Transformer Transformer首次提出于 Attention is all you need 这 阅读全文
posted @ 2024-12-08 21:40 老张哈哈哈 阅读(228) 评论(0) 推荐(0) 编辑
摘要:长度外推为在不需要对模型进行额外训练的情况下,模型可以处理更长的序列。本篇文章主要介绍目前大模型用到的一些长度外推技术,包括以RoPE为基础进行位置插值、NTK-aware、动态NTK、NTK-by-parts 和YaRN,以及LongLoRA微调技术。关于RoPE,可参见我的上一篇博客LLM学习笔 阅读全文
posted @ 2024-09-19 18:50 老张哈哈哈 阅读(860) 评论(0) 推荐(0) 编辑
摘要:在Transformer模型中,位置编码(Positional Encoding)的引入是为了补充自注意力机制(Self-Attention)在捕捉序列位置信息方面的不足。自注意力机制是Transformer的核心,但它对输入序列的位置信息并不敏感。具体来说,Transformer模型对输入序列中的 阅读全文
posted @ 2024-08-06 18:44 老张哈哈哈 阅读(1824) 评论(0) 推荐(0) 编辑
摘要:transformer中用到的注意力机制包括self-attention(intra-attention)和传统的attention(cross-attention),本篇文章将在第一节简述这两者的差别,第二节详述self-attention机制,第三节介绍其实现 self-attention和at 阅读全文
posted @ 2024-07-02 18:26 老张哈哈哈 阅读(668) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示