想做大模型开发前，先来了解一下MoE

为了实现大模型的高效训练和推理，混合专家模型MoE便横空出世。

大模型发展即将进入下一阶段但目前仍面临众多难题。为满足与日俱增的实际需求，大模型参数会越来越大，数据集类型越来越多，从而导致训练难度大增，同时也提高了推理成本。为了实现大模型的高效训练和推理，混合专家模型MoE便横空出世。

MoE结构的发展

Vanilla MoE

Export Network，用于学习不同数据，一个Gating Network用于分配每个Expert的输出权重。

Sparse MoE

Experts的输出是稀疏的，只有部分的 experts 的权重> 0，其余=0 的 expert 直接不参与计算

Expert Balancing问题

不同 experts 在竞争的过程中，会出现“赢者通吃”的现象：前期变现好的 expert 会更容易被 gating network 选择，导致最终只有少数的几个 experts 真正起作用

Transformer MoE

GShard

Transformer的encoder和decoder中，每隔一个（every other）FFN层，替换成position-wise MoE层
Top-2 gating network

Switch Transformer

简化了MoE的routing算法，gating network 每次只 route 到 1 个 expert

GLaM

Gshard结构
Scale参数量
降低训练推理成本

MoE的分布式通信和MindSpore优化

MoE结构和普通的Dense模型的差异在于，其需要额外的AllToAll通信，来实现数据的路由(Gating)和结果的回收。而AllToAll通信会跨Node（服务器）、跨pod（路由），进而造成大量的通信阻塞问题

MindSpore的MoE优化

大模型训练主要瓶颈在于片上内存与卡间通信。常用的内存优化手段：

1）MoE并行：将不同的专家切分到不同的卡上，由于MoE的路由机制，需要使用AllToAll通信，将token发送到正确的卡上。对AllToAll的优化：分级AllToAll、Group-wise AllToAll等。

2）优化器异构：大模型训练常使用的adam系列优化器，其占用的内存往往是模型参数本身的2倍或以上，可以将优化器状态存储在Host内存上。

3）多副本并行：将串行的通信、计算拆分成多组，组件流水，掩盖通信时间。

MindSpore已使能上述优化，大幅提升了万亿参数稀疏模型的训练吞吐

Mixtral 8x7b MoE大模型

Mixtral的基础模型Mistral

RoPE
RMSNorm
Transformer decoder
Grouped Multi-Query Attention
Sliding window attention: 优化随着序列长度增加而增长的显存占用和计算消耗

Mixtral

8个expert（类GPT-4）
Top2 gating

MoE Layer的MindSpore实现

Mindformers的Mixtral支持

基于MindFormers实现Mixtral-8x7B MoE模型。关键结构: GQA, RoPE, RMSNorm, SiluMoE配置: 8 Experts, TopK=2, capacity c=1.1加载开源的Mixtral权重和tokenizer，推理结果对齐HF.
4机32卡EP,PP等多维混合并行，基于自有数据集试验性训练收敛符合预期。200 epoch loss 100.02

EP=8,MP=1时性能最佳,约1147 tokens/s/p。

MoE和lifelong learning

终身学习/持续学习的性质

性质	定义
知识记忆(knowledge retention)	模型不易产生遗忘灾难
前向迁移(forward transfer)	利用旧知识学习新任务
后向迁移(backward transfer)	新任务学习后提升旧任务
在线学习(online learning)	连续数据流学习
无任务边界(No task boudaries)	不需要明确的任务或数据定义
固定模型容量(Fixed model capacity)	模型大小不随任务和数据变化

MoE模型+终身学习

性质
知识记忆(knowledge retention)	√
前向迁移(forward transfer)	√
后向迁移(backward transfer)	-
在线学习(online learning)	×
无任务边界(No task boudaries)	√
固定模型容量(Fixed model capacity)	√

MoE的特点：

多个Expert分别处理不同分布（domain/topic）的数据
推理仅需要部分Expert

LLM的终身学习：

世界知识底座持续学习。
Expert可插拔
Gating Network可增删。

MoE+终身学习的典型工作

Lifelong-MoE

扩展expert和gating network的维度
冻结旧的expert和gating network维度
使用正则克服遗忘灾难

Pangu-sigma

Random Routed Experts：

第一层，根据任务分配给不同的专家组（多个expert构成一个专家组，供一个task/domain使用）
第二层，使用组内随机Gating，让专家组的expert可以负载均衡。

这样可以保证某个领域对应的expert可以直接被抽取出来作为单个模型使用。

Mixtral 8x7b Demo

Mistral-MindSpore: https://github.com/lvyufeng/mistral-mindspore

Mindformer(MoE预训练)：https://gitee.com/mindspore/mindformers/

点击关注，第一时间了解华为云新鲜技术~

posted @ 2024-03-04 14:03 华为云开发者联盟阅读(567) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· MoE：LLM终身学习的可能性

· 解决大模型“开发难”，昇思MindSpore自动并行技术应用实践

· 大模型MoE

· 大语言模型中的MoE

· 混合专家模型 (MoE) 详解

阅读排行：
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动！「GitHub 热点速览」
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 我与微信审核的“相爱相杀”看个人小程序副业

历史上的今天：
2022-03-04 JAVA只要掌握内部类，多继承和单继承都不是问题
2022-03-04 带你掌握Redis数据类型：string和Hash
2022-03-04 深度剖析数仓CN增量备份技术
2022-03-04 教你3种Kafka的指定副本作为Leader的实现方式
2021-03-04 上过云么？一行代码秒上云体验过么？
2021-03-04 徐烨：这20年，我与应用系统的“云化”之路
2021-03-04 DevOps敏捷60问，一定有你想了解的问题

公告

昵称：华为云开发者联盟
园龄： 4年9个月
粉丝： 855
关注： 1

+加关注

2025年2月

日

一

二

三

四

五

六

想做大模型开发前，先来了解一下MoE

MoE结构的发展

MoE的分布式通信和MindSpore优化

Mixtral 8x7b MoE大模型

MoE和lifelong learning

Mixtral 8x7b Demo

公告

搜索

常用链接

我的标签

积分与排名

合集 (21)

随笔分类 (4020)

随笔档案 (4101)

阅读排行榜

评论排行榜

推荐排行榜

最新评论