Mistral AI vs. Meta:顶级开源LLM比较

为了提高性能，大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标，但是模型大小的增加也增加了计算成本和推理延迟，增加了在实际场景中部署和使用llm的障碍。

Mistral AI是一家总部位于巴黎的欧洲公司，一直在研究如何提高模型性能，同时减少为实际用例部署llm所需的计算资源。Mistral 7B是他们创建的最小的LLM，它为传统的Transformer架构带来了两个新概念，Group-Query Attention(GQA)和Sliding Window Attention(SWA)。这些组件加快了推理速度，减少了解码过程中的内存需求，从而实现了更高的吞吐量和处理更长的令牌序列的能力。

此外他们还创造了混合8x7B，通过使用稀疏混合专家(SMoEs)。为每个令牌激活8个可用专家中的2个来减少推理时间，将处理令牌所需的参数数量从47B减少到13B。

在本文中，我们将详细地解释了Mistral AI添加到传统Transformer架构中的每个新概念，并对Mistral 7B和Llama 27b之间的推理时间进行了比较。除此以外还对Mixtral 8x7B和Llama 270b之间的内存、推理时间和响应质量进行了比较。

https://avoid.overfit.cn/post/1924fd9d2c174feba6495eb90e85e301

posted @ 2024-01-25 10:45 deephub 阅读(91) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

Mistral AI vs. Meta:顶级开源LLM比较

公告