主流大语言模型的技术原理细节

1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节：tokenizer、位置编码、Layer Normalization、激活函数等。
2. 大语言模型的分布式训练技术：数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。
3. 大语言模型的参数高效微调技术：prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大纲

1. 大语言模型的细节

1.0 transformer 与 LLM

1.1 模型结构

1.2 训练目标

1.3 tokenizer

1.4 位置编码

1.5 层归一化

1.6 激活函数

1.7 Multi-query Attention 与 Grouped-query Attention

1.8 并行 transformer block

1.9 总结-训练稳定性

2. LLM 的分布式预训练

2.0 点对点通信与集体通信

2.1 数据并行

2.2 张量并行

2.3 流水线并行

2.4 3D 并行

2.5 混合精度训练

2.6 激活重计算

2.7 ZeRO，零冗余优化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调？

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 实验比较

4. 参考文献

作者：spring

posted @ 2023-09-24 07:48 古道轻风阅读(987) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区，博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】博客园社区专享云产品让利特惠，阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 通俗直观介绍ChatGPT背后的大语言模型理论知识

· 如何用大语言模型构建一个知识问答系统

· 大模型的技术框架及相关开源项目

· 大模型LLM微调策略一览

· 大模型解惑

阅读排行：
· 在鹅厂做java开发是什么体验
· 百万级群聊的设计实践
· WPF到Web的无缝过渡：英雄联盟客户端的OpenSilver迁移实战
· 永远不要相信用户的输入：从 SQL 注入攻防看输入验证的重要性
· 浏览器原生「磁吸」效果！Anchor Positioning 锚点定位神器解析

历史上的今天：
2015-09-24 SVN(TortoiseSVN)提交时忽略bin跟obj目录
2008-09-24 C#中获取Excel文件中的表名
2008-09-24 未来IT人才市场最热门的12项技能
2008-09-24 主流服务器配置分析
2008-09-24 一个sqlite的例子,将图片存入sqlite数据库

公告

时钟canvas

昵称：古道轻风
园龄： 17年3个月
粉丝： 248
关注： 2

<

2025年2月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

1

2

3

4

5

6

7

8

最新随笔

随笔分类 (898)

随笔档案 (839)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:深入学习IO多路复用 select/poll/epoll 实现原理
图 1.3 和图 1.4 为什么是一样的？不是一个是非阻塞 IO，一个是 IO多路复用吗？咋图一样呢？
--cupid~~
2. Re:C#调用海康威视CHCNetSDK出现未能从程序集中加载类型“WIFI_AUTH_PARAM”，因为它在 0 偏移位置处包含一个对象字段，该字段已由一个非对象字段不正确地对齐或重叠。
是不是把SDK往Web项目里集成的时候出现了这个问题？
--echo_lovely
3. Re:ChatGPT是如何产生心智的？
有些疑惑，人类智能的标准更倾向于大脑越大越智能，也就是神经元的个数，但是大模型中反而是权重参数越多越智能，而神经元的个数反而不是特别重要，这其中本质的区别是什么？
--漫游云巅
4. Re:Babelfish for PostgreSQL
你好，想问一下，是不是部署了babelfish之后，通过ssms连接pgsql的数据库，然后执行sql server的创建存储过程的sql语句，就可以在pgsql生成存储过程？
--辉笑
5. Re:如何设计一个海量任务调度系统
有源码吗
--耶路撒冷的夜空

支持DeepSeek的编程助手