Mistral AI vs. Meta:顶级开源LLM比较

为了提高性能,大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标,但是模型大小的增加也增加了计算成本和推理延迟,增加了在实际场景中部署和使用llm的障碍。

Mistral AI是一家总部位于巴黎的欧洲公司,一直在研究如何提高模型性能,同时减少为实际用例部署llm所需的计算资源。Mistral 7B是他们创建的最小的LLM,它为传统的Transformer架构带来了两个新概念,Group-Query Attention(GQA)和Sliding Window Attention(SWA)。这些组件加快了推理速度,减少了解码过程中的内存需求,从而实现了更高的吞吐量和处理更长的令牌序列的能力。

此外他们还创造了混合8x7B,通过使用稀疏混合专家(SMoEs)。为每个令牌激活8个可用专家中的2个来减少推理时间,将处理令牌所需的参数数量从47B减少到13B。

在本文中,我们将详细地解释了Mistral AI添加到传统Transformer架构中的每个新概念,并对Mistral 7B和Llama 27b之间的推理时间进行了比较。除此以外还对Mixtral 8x7B和Llama 270b之间的内存、推理时间和响应质量进行了比较。

https://avoid.overfit.cn/post/1924fd9d2c174feba6495eb90e85e301

posted @ 2024-01-25 10:45  deephub  阅读(14)  评论(0编辑  收藏  举报