2023年全球十大大模型简介

<转>https://baijiahao.baidu.com/s?id=1770560671091860606&wfr=spider&for=pc

据统计,到目前为止,全球已经发布了数百个大模型。但是,哪些是最有能力的?哪些是最受业界关注的?请关注笔者列出的《2023年全球最佳大模型》。

1. GPT-4

OpenAI的GPT-4模型是2023年最好的AI大模型,没有之一。GPT-4模型于2023年3月发布,展示了其强大的能力,包括复杂的推理能力、高级编码能力、多种学术学习能力、可媲美人类水平表现的能力等。

 

事实上,它是第一个可以同时接受文本和图像作为输入的多模态模型。虽然ChatGPT还没有添加多模式功能,但一些用户已经通过由GPT-4模型提供支持的Bing Chat获得了访问权限。

 

与ChatGPT-3.5相比,GPT-4模型在几个类别的实际评估中得分接近80%。OpenAI还通过使用来自人类反馈的强化学习(RLHF)与领域专家进行对抗性测试,竭尽全力使GPT-4模型更符合人类价值观。

 

GPT-4模型已经在超过1万亿个参数上进行了训练,支持32768个令牌的最大上下文长度。到目前为止,我们还没有太多关于GPT-4内部架构的信息,但最近的报道透露,GPT-4是一个混合模型,由8个不同的模型组成,每个模型都有2200亿个参数

 

最后,您可以使用ChatGPT插件,并使用带有GPT-4模型的Bing浏览网页。唯一的缺点是它的响应速度很慢,计算时间要长得多,这迫使开发人员使用较旧的GPT-3.5模型。总体来说,OpenAI GPT-4模型是2023年迄今为止你能使用的最好的大模型。

 

2.PaLM 2 (Bison-001)

接下来是来自谷歌的PaLM 2 AI模型,它也是2023年最好的大型语言模型之一。Google在PaLM 2模型上专注于常识推理、形式逻辑、数学和20多种语言的高级编码。据说,最大的PaLM 2模型已经在5400亿个参数上进行了训练,最大上下文长度为4096个令牌。

 

谷歌公布了四款基于PaLM 2的不同版本的大模型,即Gecko、Otter、Bison、Unicorn。其中,Bison目前可用,它在MT-Bench测试中得分为6.40分,而GPT-4得分高达8.99分。

 

然而,在WinoGrande、StrategyQA、XCOPA等推理评估和其他测试中,PaLM 2表现出色,优于GPT-4。它也是一个多语言模型,可以理解不同语言的习语、谜语和细致入微的文本。这是其他大模型难以解决的问题。

 

PaLM 2的另一个优点是它的响应速度非常快,可以同时提供三个响应。您可以在谷歌的Vertex AI平台上测试PaLM 2(Bison-001)模型,也可以使用运行在PaLM2上的GoogleBard。

 

3. Claude v1

也许你还不知道,Claude是一个强大的大模型,由谷歌支持的Anthropic开发。它是由前OpenAI员工共同创立的,其方法是构建有用、诚实和无害的人工智能助手。在多个基准测试中,Anthropic的Claude v1和Claude Instant模型显示出了巨大的前景。事实上,Claude v1在MMLU和MT-Bench测试中的表现要好于PaLM 2。

 

它接近于GPT-4,在MT-Bench测试中得分为7.94,而GPT-4得分为8.99。在MMLU基准测试中,Claude v1获得75.6分,GPT-4获得86.4分。Anthropic也成为第一家在其Claude-instant-100k模型中提供10万代币作为最大上下文窗口的公司。你基本上可以在一个窗口中加载近75000个单词。这太疯狂了,对吧?

 

4. Cohere

Cohere是一家人工智能初创公司,由曾在谷歌大脑团队工作的前谷歌员工创立。它的联合创始人之一Aidan Gomez参与了Transformer架构的“Attention is all you Need”论文的撰写。与其他AI公司不同,Cohere为企业服务,并为企业解决生成式AI用例。Coherence有很多模型,从小到大,从只有6B个参数到训练了52B个参数的大模型。

他们最近推出的模型——Cohere Command以其准确性和稳定性赢得了赞誉。根据斯坦福HELM的说法,Cohere Command模型的准确性在同行中得分最高。除此之外,Spotify、Jasper、HyperWrite等公司都在使用Cohere的模型来提供人工智能体验。

在定价方面,Cohere每产生100万个代币收费15美元,而OpenAI对同样数量的代币收费4美元。然而,就准确性而言,它比其他大模型要好。因此,如果你在经营一家企业,并且正在寻找最好的大模型整合到你的产品中,你可以看看Cohere。

 

5. Falcon

Falcon是这个列表上的第一个开源大模型,它的排名超过了迄今为止发布的所有开源模型,包括LLaMA、StableLM、MPT等等。它是由阿联酋技术创新研究所开发的。关于Falcon最好的一点是,它已经使用Apache 2.0许可证开源,这意味着您可以将该模型用于商业目的,也没有版税或限制。

 

到目前为止,阿联酋技术创新研究所已经发布了两种Falcon模型,分别接受了40B和7B参数的训练。开发人员建议,这些都是原始模型,如果你想用它们聊天,你应该选择Falcon-40B-Instruct模型,它针对大多数用例进行了微调。

 

Falcon模型主要训练英语、德语、西班牙语和法语,但它也可以用意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语工作。所以,如果你对开源人工智能模型感兴趣,首先看看Falcon。

 

6. LLaMA

 

自从LLaMA模型在网上泄露后,Meta就开始全力投入开源。它正式发布了各种类型的LLaMA模型,从70亿个参数到650亿个参数。Meta表示,其LLaMA-13B模型优于OpenAI的GPT-3模型,该模型已在1750亿个参数上进行了训练。许多开发人员正在使用LLaMA进行微调并创建一些最好的开源模型。话虽如此,但请记住,LLaMA仅用于研究,不能用于商业用途。

 

谈到LLaMA 65B模型,它在大多数用例中都显示出了惊人的能力。它在Open LLM排行榜上名列前十。Meta表示,它没有进行任何专有训练。相反,该公司使用了来自CommonCrawl、C4、GitHub、ArXiv、维基百科、StackExchange等网站的公开数据。

 

简单地说,在Meta发布LLaMA模型后,开源社区看到了快速的创新,并提出了用新的技术来创造更小、更高效的模型。

 

7. Guanaco-65B

在几个LLaMA衍生的模型中,Guanaco-65B被证明是最好的开源大模型,仅次于Falcon模型。在MMLU测试中,它的得分为52.7,而Falcon模型的得分为54.1。同样,在TruthfulQA评估中,Guanaco的得分为51.3,Falcon的得分更高,为52.5。Guanaco有四种类型:7B、13B、33B和65B型号。Tim Dettmers和其他研究人员在OASST1数据集上对所有模型进行了微调。

 

至于Guanaco是如何微调的,研究人员提出了一种名为QLoRA的新技术,该技术可以有效地减少内存使用,同时保持完整的16位任务性能。在维库纳基准上,Guanaco-65B模型甚至以更小的参数优于GPT-3.5模型。

 

最棒的是,65B模型在短短24小时内就在一个拥有48GB VRAM的GPU上进行了训练。这表明开源模型在降低成本和保持质量方面已经取得了长足的进步。总之,如果你想尝试离线的本地大模型,你绝对可以相信Guanaco。

 

8. Vicuna 33B

Vicuna是LMSYS开发的另一个强大的开源大模型。与许多其他开源模型一样,它也是从LLaMA衍生而来的。它使用监督指导进行了微调,训练数据是从sharegpt.com网站上收集的。这是一个自回归的大模型,基于330亿个参数进行训练。

 

在LMSYS自己的MT Bench测试中,它得了7.12分,而最好的专有型号GPT-4得了8.99分。在MMLU测试中,它也获得了59.2分,GPT-4获得了86.4分。尽管它是一个小得多的模型,Vicuna的表现仍然突出。

 

9. MPT-30B

MPT-30B是另一个与LLaMA衍生模型竞争的开源大模型。它是由Mosaic ML开发的,并对来自不同来源的大量数据进行了微调。它使用来自ShareGPT Vicuna、Camel AI、GPTeacher、Guanaco、Baize和其他的数据集。这个开源模型最棒的部分是它有8K令牌的上下文长度。

此外,它优于OpenAI的GPT-3模型,在LMSYS的MT-Bench测试中得分为6.39。如果您正在寻找一个小模型在本地运行,MPT-30B模型是一个很好的选择。

10 . 30B-Lazarus

 

30B-Lazarus模型是由CalderaAI开发的,它使用LLaMA作为其基础模型。开发人员使用了来自多个模型的经过lora调优的数据集,包括Manticore、SuperCOT-LoRA、SuperHOT、GPT-4 Alpaca-LoRA等。因此,该模型在许多LLM基准测试中表现得更好。它在HellaSwag的得分为81.7,在MMLU的得分为45.2。

 

如果您的用例主要是文本生成而不是会话聊天,那么30B Lazarus模型可能是一个不错的选择。

 

 
posted @   海_纳百川  阅读(158)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全网最简单!3分钟用满血DeepSeek R1开发一款AI智能客服,零代码轻松接入微信、公众号、小程
· .NET 10 首个预览版发布,跨平台开发与性能全面提升
· 《HelloGitHub》第 107 期
· 全程使用 AI 从 0 到 1 写了个小工具
· 从文本到图像:SSE 如何助力 AI 内容实时呈现?(Typescript篇)
历史上的今天:
2022-08-30 pycharm 代码无法自动补全(自动顺带)的解决方法
2022-08-30 linux中的ssh和sshd的区别
本站总访问量8937473
 
点击右上角即可分享
微信分享提示