法国的Mistral AI大语言模型详解
Mistral AI
概述
Mistral AI 是一家法国人工智能(AI)公司,专注于开发开源大型语言模型。该公司成立于2023年4月,由前Meta平台和Google DeepMind的员工创立。Mistral AI在AI领域迅速崛起,成为全球领先的开源模型提供商之一。
历史背景
Mistral AI由Arthur Mensch、Guillaume Lample和Timothée Lacroix共同创办。三位创始人曾在École polytechnique学习时相识。Arthur Mensch曾在Google DeepMind工作,而Guillaume Lample和Timothée Lacroix则在Meta平台任职。Mistral这一名称来源于法国的一种强风,象征着其推动技术进步的愿景。
公司成立后,Mistral迅速获得了投资。2023年6月,Mistral完成了首次融资,筹集了1.05亿欧元(约合1.17亿美元),投资者包括Lightspeed Venture Partners、Eric Schmidt、Xavier Niel和JCDecaux。2023年9月27日,公司发布了其首个语言处理模型“Mistral 7B”,这是一个具有70亿参数的模型,使用了变换器(transformer)架构,并以Apache 2.0许可证公开发布。
发展历程
- 2023年12月:Mistral AI发布了Mixtral 8x7B模型,该模型具有46.7亿个参数,并采用了专家混合架构。该模型在多个基准测试中超越了Meta的LLama 2 70B模型。
- 2024年2月:Mistral宣布与微软建立合作伙伴关系,Mistral的丰富语言模型将通过微软的Azure云平台提供,同时推出了多语言对话助手“Le Chat”。
- 2024年4月:Mistral发布了Mixtral 8x22B模型,该模型使用了一种类似于Mixtral 8x7B的架构,但每个专家具有22亿参数,总参数量达到141亿。
融资情况
- 2023年10月:Mistral AI成功筹集了3.85亿欧元(约合4.28亿美元)。
- 2024年6月:Mistral AI宣布完成新一轮融资,筹集了6亿欧元(约合6.45亿美元),公司的估值提升至58亿欧元(约合62亿美元)。此次融资由风险投资公司General Catalyst主导,现有投资者也参与其中。
模型介绍
开源模型
- Mistral 7B:这是一个拥有70亿参数的语言模型,使用了变换器架构,并采用了分组查询注意力(Grouped-Query Attention, GQA)机制。该模型于2023年9月27日发布,并在多个基准测试中表现出色。
- Mixtral 8x7B:发布于2023年12月,采用了稀疏专家混合架构,具有46.7亿个参数,单个标记使用12.9亿参数。该模型在性能测试中优于LLaMA 70B和GPT-3.5。
- Mixtral 8x22B:发布于2024年4月,继承了Mixtral 8x7B的架构,但每个专家具有22亿参数,总参数量为141亿。
- Mistral Large 2:发布于2024年7月,具有123亿参数,支持多种语言,并在编程相关任务中表现优异。
- Codestral 22B:发布于2024年5月,专注于代码生成任务,支持80多种编程语言,超过Meta的Llama3 70B模型。
- Mathstral 7B:发布于2024年7月,专注于STEM学科,在数学基准测试中表现良好。
- Codestral Mamba 7B:基于Mamba 2架构,专注于长输入生成任务。