2023 年 9月 24 日随笔档案 - 古道轻风

2023年9月24日

摘要： 1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节：tokenizer、位置编码、Layer Normalization、激活函数等。2. 大语言模型的分布式训练技术：数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。3. 大语言模型的参数高效微调技术：prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。阅读全文

posted @ 2023-09-24 07:48 古道轻风阅读(987) 评论(0) 推荐(0) 编辑

公告

时钟canvas

昵称：古道轻风
园龄： 17年3个月
粉丝： 248
关注： 2

+加关注

2025年2月

日

一

二

三

四

五

六

轻风博客

心之所想皆是过往目之所及皆是遗憾

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (898)

随笔档案 (839)

技术网站

阅读排行榜

评论排行榜

推荐排行榜

最新评论