Mixtral 8×7B (Mistral MoE)
Blog 1: Mixtral 8✖️7B=56B?错!一文带你看清Mixtral内部结构及参数计算 | Zhihu
Blog 2: Mixtral 8x7B(Mistral MoE) 模型解析 | Zhihu
Video 1: mixtral系列S1——MoE实现细节 | Bilibili
Video 2: mixtral系列S2——图解MoE | Bilibili
- Pre RMS Norm
- Grouped Query Attention