法国的Mistral AI大语言模型详解

Mistral AI

概述

Mistral AI 是一家法国人工智能(AI)公司,专注于开发开源大型语言模型。该公司成立于2023年4月,由前Meta平台和Google DeepMind的员工创立。Mistral AI在AI领域迅速崛起,成为全球领先的开源模型提供商之一。

历史背景

Mistral AI由Arthur Mensch、Guillaume Lample和Timothée Lacroix共同创办。三位创始人曾在École polytechnique学习时相识。Arthur Mensch曾在Google DeepMind工作,而Guillaume Lample和Timothée Lacroix则在Meta平台任职。Mistral这一名称来源于法国的一种强风,象征着其推动技术进步的愿景。

公司成立后,Mistral迅速获得了投资。2023年6月,Mistral完成了首次融资,筹集了1.05亿欧元(约合1.17亿美元),投资者包括Lightspeed Venture Partners、Eric Schmidt、Xavier Niel和JCDecaux。2023年9月27日,公司发布了其首个语言处理模型“Mistral 7B”,这是一个具有70亿参数的模型,使用了变换器(transformer)架构,并以Apache 2.0许可证公开发布。

发展历程

  • 2023年12月:Mistral AI发布了Mixtral 8x7B模型,该模型具有46.7亿个参数,并采用了专家混合架构。该模型在多个基准测试中超越了Meta的LLama 2 70B模型。
  • 2024年2月:Mistral宣布与微软建立合作伙伴关系,Mistral的丰富语言模型将通过微软的Azure云平台提供,同时推出了多语言对话助手“Le Chat”。
  • 2024年4月:Mistral发布了Mixtral 8x22B模型,该模型使用了一种类似于Mixtral 8x7B的架构,但每个专家具有22亿参数,总参数量达到141亿。

融资情况

  • 2023年10月:Mistral AI成功筹集了3.85亿欧元(约合4.28亿美元)。
  • 2024年6月:Mistral AI宣布完成新一轮融资,筹集了6亿欧元(约合6.45亿美元),公司的估值提升至58亿欧元(约合62亿美元)。此次融资由风险投资公司General Catalyst主导,现有投资者也参与其中。

模型介绍

开源模型

  • Mistral 7B:这是一个拥有70亿参数的语言模型,使用了变换器架构,并采用了分组查询注意力(Grouped-Query Attention, GQA)机制。该模型于2023年9月27日发布,并在多个基准测试中表现出色。
  • Mixtral 8x7B:发布于2023年12月,采用了稀疏专家混合架构,具有46.7亿个参数,单个标记使用12.9亿参数。该模型在性能测试中优于LLaMA 70B和GPT-3.5。
  • Mixtral 8x22B:发布于2024年4月,继承了Mixtral 8x7B的架构,但每个专家具有22亿参数,总参数量为141亿。
  • Mistral Large 2:发布于2024年7月,具有123亿参数,支持多种语言,并在编程相关任务中表现优异。
  • Codestral 22B:发布于2024年5月,专注于代码生成任务,支持80多种编程语言,超过MetaLlama3 70B模型。
  • Mathstral 7B:发布于2024年7月,专注于STEM学科,在数学基准测试中表现良好。
  • Codestral Mamba 7B:基于Mamba 2架构,专注于长输入生成任务。

 

原文参考:https://www.changshi.wiki/pedia/2JuuAG

posted @ 2024-09-14 19:51  高盛  阅读(80)  评论(0编辑  收藏  举报

人工智能 | 大语言模型 | ChatGPT | LLM | OpenAI | GPT-4o | GPT-o1