GPT-4多模态大型语言模型发布

GPT-4 模型是OpenAI开发的第四代大型语言模型(LLM),它将是一个多模态模型,会提供完全不同的可能性-例如文字转图像、音乐甚至视频。GPT 全称为 Generative Pre-trained Transformer,是一种使用人工神经网络的深度学习技术,能够使机器像人一样聊天交流并进行创作。

3月14日,OpenAI正式推出了GPT-4,GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。

 

 

OpenAI 既发布了论文(更像是技术报告)、 System Card,把 ChatGPT 直接升级成了 GPT-4 版的,也开放了 GPT-4 的 API。

GPT-4 发布后,OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。
要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。OpenAI 会邀请部分开发者体验。
获得访问权限后,用户目前可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)。至于价格方面,定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。
GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文(约 50 页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

 


另外,微软营销主管在 GPT-4 发布后第一时间表示:「如果你在过去六周内的任何时候使用过新的 Bing 预览版,你就已经提前了解了 OpenAI 最新模型的强大功能。」是的,微软的新必应早就已经用上了GPT-4。

 

 

GPT-4优势

GPT-4 是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。实验表明,GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。
OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。
在过去的两年里,OpenAI 重建了整个深度学习堆栈,并与 Azure 一起为其工作负载从头开始设计了一台超级计算机。一年前,OpenAI 在训练 GPT-3.5 时第一次尝试运行了该超算系统,之后他们又陆续发现并修复了一些错误,改进了其理论基础。这些改进的结果是 GPT-4 的训练运行获得了前所未有的稳定,以至于 OpenAI 能够提前准确预测 GPT-4 的训练性能,它也是第一个实现这一点的大模型。OpenAI 表示他们将继续专注于可靠的扩展,进一步完善方法,以帮助其实现更强大的提前预测性能和规划未来的能力,这对安全至关重要。
OpenAI 正在通过 ChatGPT 和 API(有候补名单)发布 GPT-4 的文本输入功能。图像输入功能方面,为了获得更广泛的可用性,OpenAI 正在与其他公司展开合作。
OpenAI 今天还开源了 OpenAI Evals,这是其用于自动评估 AI 模型性能的框架。OpenAI 表示此举是为了让所有人都可以指出其模型中的缺点,以帮助 OpenAI 进一步改进模型。
有趣的是,GPT-3.5 和 GPT-4 之间的区别很微妙。当任务的复杂性达到足够的阈值时,差异就会出现 ——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。为了了解这两个模型之间的差异,OpenAI 在各种基准和一些为人类设计的模拟考试上进行了实验。

 

 

 

 

OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型:

 

许多现有的机器学习基准测试都是用英语编写的。为了初步了解 GPT-4 在其他语言上的能力,研究团队使用 Azure Translate 将 MMLU 基准 —— 一套涵盖 57 个主题的 14000 个多项选择题 —— 翻译成多种语言。在测试的 26 种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能:

 

 

就像许多使用 ChatGPT 的公司一样,OpenAI 表示他们内部也在使用 GPT-4,因此 OpenAI 也在关注大型语言模型在内容生成、销售和编程等方面的应用效果。OpenAI 还使用 GPT-4 辅助人们评估 AI 输出,这也是 OpenAI 对其策略的第二阶段。OpenAI 既是 GPT-4 的开发者,也是使用者。

GPT-4 可以接受文本和图像形式的 prompt,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。
具体来说,它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。在一系列领域 —— 包括带有文本和照片的文档、图表或屏幕截图上 ——GPT-4 展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链 prompt。
比如给 GPT-4 一个长相奇怪的充电器的图片,问为什么这很可笑?

 

GPT-4 回答道,VGA 线充 iPhone。

 

 

 

GPT-4局限性

尽管功能已经非常强大,但 GPT-4 仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。
目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。
总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:

 

 

 GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。

 

实验结果表明,GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4 的测试示例 —— 并不是所有时候它都能做出正确的选择。

 

 该模型在其输出中可能会有各种偏见,OpenAI 在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。
GPT-4 通常缺乏对其绝大部分数据截止后(2021 年 9 月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。
GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会 double-check。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练(post-training)过程,校准减少了。

 

 

OpenAI 表示,研究团队一直在对 GPT-4 进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。
GPT-4 有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。同时,GPT-4 的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。

 

 

参考资料

https://openai.com/research/gpt-4

https://openai.com/product/gpt-4 


 

GPT-4 建立在 GPT-3 之上,GPT-3 于 2020 年 5 月发布,并迅速成为使用最广泛的自然语言处理模型之一。 GPT-4 比 GPT-3 更大更强,能够更准确、更流畅地处理和生成文本。

在GPT-4之前是GPT-3.5,由该模型开发的聊天机器人 ChatGPT 一经面世,便引爆 AI 界的军备竞赛

多模态或成GPT-4最大亮点

  微软 AI 技术专家 Holger Kenn 和 Clemens Sieber 对多模态 AI 的相关功能进行了介绍。

  根据 Kenn 的说法,多模态 AI 不仅可以将文本转化成相应的图像、音乐甚至是视频。在微软宣布前,机器学习专家 Emil Wallner 就在推特上预测,称 GPT-4 可能具备这种能力。

  Sieber 则介绍了一些多模态 AI 产业化的潜在案例,例如多模态 AI 能够将电话呼叫的语音直接记录成文本。根据估算,该功能能为微软位于荷兰的一家大客户节省 500 个工作小时/天。

  这项技术已经发展到基本上“适用于所有语言”,也就是说“可以用德语提问,然后用意大利语得到答案。”

 

  近期接受媒体采访时,OpenAI 首席执行官 Sam Altman 直接否认了一些传言,比如 GPT-4 可能会使 AGI 有和人类一样的意识。

  Altman 强调,GPT-4 是一次进化,而不是一项革命性的技术。ChatGPT 的下一个版本不会是 AGI ,也不会有 100 万亿个参数

  OpenAI 的首席技术官 Mira Murati 认为少宣传是好事,但表示 GPT-4 可能会“为人们拓宽发展机会”。

GPT简介 

GPT,即 Generative Pre-trained Transformer,是由 OpenAI 提出的一系列非常强大的预训练语言模型。该系列模型基于互联网上的可用数据上进行训练,在 NLP(自然语言处理)方面表现卓越,可用于问答、文章生成、机器翻译、代码生成和对话 AI 等。

在 GPT 系列模型推出之前,传统的 NLP 模型都是针对特定任务(如分类、翻译等)进行训练的,并且往往使用监督学习,这就导致了两个问题:缺乏大量的标注数据,模型也无法概括和泛化任务。

以下是GPT的演变历史

GPT-1

OpenAI 在 2018 年推出了 GPT-1,模型参数数量为 1.17 亿,通过未标注的数据训练出一种生成式语言模型,再根据特定的下游任务进行微调,将无监督学习作为有监督模型的预训练目标。

GPT-2

时隔一年后,2019 年具有 15 亿参数的 GPT-2 出现。与 GPT-1 相比,GPT-2 在结构上并没有太多创新与设计,使用了更大的数据集和更多的模型参数进行训练,以此强化并提高模型性能。

从 GPT-1 的 1.17 亿到 GPT-2 的 15 亿,超 10 倍的参数差距带来了性能上的飞跃。这似乎意味着,随着容量和参数量的增多,模型性能还有更大的潜力

GPT-3

2020 年 GPT-3 的参数量翻了 100 倍:1750 亿,其预训练数据量也高达 45TB(GPT-2 是 40GB,GPT-1 约 5 GB)。

事实证明,海量参数确实让 GPT-3 具备了更强大的性能,它在下游任务表现的非常好。即便是复杂的 NLP 任务,GPT-3 也表现惊艳:可以模仿人类写作,编写 SQL 查询语句、React 或 JavaScript 代码等。

InstructGPT

2022 年初推出全新的 InstructGPT 模型,只要 13 亿参数,效果就比 GPT-3 更好。InstructGPT能根据用户的反馈数据进行训练。

 

 

ChatGPT

ChatGPT,由 GPT-3.5 系列中的模型微调而成。自从去年 11 月发布以来,ChatGPT 迅速火爆全球。凭借背后强大的技术,ChatGPT 可以完成流畅对答、写脚本、写方案、写代码等各项功能,更展现出了此前 AI 无法实现的“创造”能力,让C端用户都惊喜不已。因此其仅用了两个月用户数便已突破 1 亿,成为史上蹿红最快的应用。根据 Similarweb 的测算,其访问量已经从 1 月的 6.16 亿达到目前的超过 10 亿。

相关文章

算法工程师深度解构ChatGPT技术

 

ChatGPT API

3月1日,OpenAI 放出了ChatGPT API(GPT-3.5-turbo 模型),1000个tokens为$0.002美元,等于每输出 100 万个单词,价格才 2.7 美金(约 18 元人民币),比已有的 GPT-3.5 模型便宜 10 倍。

 

GPT-4

GPT-4 模型是第四代大型语言模型(LLM),它将是一个多模态模型,会提供完全不同的可能性-例如文字转图像、音乐甚至视频。

 

生成式AI应用有哪些

 

posted @ 2023-03-12 11:37  ytkah  阅读(764)  评论(0编辑  收藏  举报
网址导航 gg N / G Sitemap

部分内容来源于网络,如有版权问题请联系删除