法国的Mistral AI大语言模型详解

Mistral AI

概述

Mistral AI 是一家法国人工智能（AI）公司，专注于开发开源大型语言模型。该公司成立于2023年4月，由前Meta平台和Google DeepMind的员工创立。Mistral AI在AI领域迅速崛起，成为全球领先的开源模型提供商之一。

历史背景

Mistral AI由Arthur Mensch、Guillaume Lample和Timothée Lacroix共同创办。三位创始人曾在École polytechnique学习时相识。Arthur Mensch曾在Google DeepMind工作，而Guillaume Lample和Timothée Lacroix则在Meta平台任职。Mistral这一名称来源于法国的一种强风，象征着其推动技术进步的愿景。

公司成立后，Mistral迅速获得了投资。2023年6月，Mistral完成了首次融资，筹集了1.05亿欧元（约合1.17亿美元），投资者包括Lightspeed Venture Partners、Eric Schmidt、Xavier Niel和JCDecaux。2023年9月27日，公司发布了其首个语言处理模型“Mistral 7B”，这是一个具有70亿参数的模型，使用了变换器（transformer）架构，并以Apache 2.0许可证公开发布。

发展历程

2023年12月：Mistral AI发布了Mixtral 8x7B模型，该模型具有46.7亿个参数，并采用了专家混合架构。该模型在多个基准测试中超越了Meta的LLama 2 70B模型。
2024年2月：Mistral宣布与微软建立合作伙伴关系，Mistral的丰富语言模型将通过微软的Azure云平台提供，同时推出了多语言对话助手“Le Chat”。
2024年4月：Mistral发布了Mixtral 8x22B模型，该模型使用了一种类似于Mixtral 8x7B的架构，但每个专家具有22亿参数，总参数量达到141亿。

融资情况

2023年10月：Mistral AI成功筹集了3.85亿欧元（约合4.28亿美元）。
2024年6月：Mistral AI宣布完成新一轮融资，筹集了6亿欧元（约合6.45亿美元），公司的估值提升至58亿欧元（约合62亿美元）。此次融资由风险投资公司General Catalyst主导，现有投资者也参与其中。

模型介绍

开源模型

Mistral 7B：这是一个拥有70亿参数的语言模型，使用了变换器架构，并采用了分组查询注意力（Grouped-Query Attention, GQA）机制。该模型于2023年9月27日发布，并在多个基准测试中表现出色。
Mixtral 8x7B：发布于2023年12月，采用了稀疏专家混合架构，具有46.7亿个参数，单个标记使用12.9亿参数。该模型在性能测试中优于LLaMA 70B和GPT-3.5。
Mixtral 8x22B：发布于2024年4月，继承了Mixtral 8x7B的架构，但每个专家具有22亿参数，总参数量为141亿。
Mistral Large 2：发布于2024年7月，具有123亿参数，支持多种语言，并在编程相关任务中表现优异。
Codestral 22B：发布于2024年5月，专注于代码生成任务，支持80多种编程语言，超过Meta的Llama3 70B模型。
Mathstral 7B：发布于2024年7月，专注于STEM学科，在数学基准测试中表现良好。
Codestral Mamba 7B：基于Mamba 2架构，专注于长输入生成任务。

原文参考：https://www.changshi.wiki/pedia/2JuuAG

posted @ 2024-09-14 19:51 高盛阅读(502) 评论(0) 收藏举报

刷新页面返回顶部