LLaMA,LLaMA-2中的变化
LLaMA
-
预训练Token数量 1.4T
- CommonCrawl,C4:互联网网页
- github:代码
- wikipedia:百科
- books,arxiv:书籍论文
- StackExchange:科学问答
-
pre-norm + RMSNorm
- 关于两者的讨论可以参考 博客
- RMSNorm:计算减少,效果不差
- layernorm:re-scale(方差)+ re-center(均值)
- RMSNorm:re-scale(方差)
-
FFN->SwiGLU
- FFN:
- SiLU:,零点附近梯度较为友好
- SwiGLU:
-
RoPE
-
上下文长度2048
- 当拓展到更长文本时,直接外插,外插的部分模型没见过,性能弱于ALiBi,
- 可以用内插值(Chinese-LLaMA做法)
- NTK-Aware Scaled RoPE
- 关于上下文长度的拓展详见我的另一个博客博客
LLaMA-2
- 预训练Token数量 2T
- pre-norm + RMSNorm(layerNorm的简化版)
- FFN->SwiGLU
- RoPE
- 上下文长度4096
- GQA(grouped-query attention)
-
MHA(Multi-head Attention)是标准的多头注意力机制,h个Query、Key 和 Value 矩阵。
-
MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的是,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。
-
GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。而GQA-H具有与头数相等的组,等效于MHA。
-
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?