OpenAI最新模型GPT4o十个牛逼的应用场景!
OpenAI真是要压着谷歌打么?哈哈!
直接赶在谷歌之前开了一个新品发布会。
![](https://picx.zhimg.com/80/v2-e4b7dacdf483e5ba5e7425e00d18ec59_1440w.png)
今天凌晨直播,早上一起来就发现已经可以体验新模型了。
![](https://picx.zhimg.com/80/v2-5a4482eae5c81a486912847f2bad28ba_1440w.png)
从录播内容来看,并没有传言的GPT5,也没有所谓的搜索功能。
但是,这次更新依旧出彩。
其实奥特曼在X上早就说了,不是gpt5,也不是搜索,但对他来说像魔法一般。
![](https://pica.zhimg.com/80/v2-c53add75d44f38d9d95f89db8172a1ac_1440w.png)
整个发布会看下来,也是有一种未来已来的感觉。
很明显,ChatGPT早已不再是一个文字模型了。
它可以感知外界的声音和画面,甚至你说话的情绪,并且给你相应情绪的反馈。
这很容易,让人联想到科幻电影《Her》。
![](https://picx.zhimg.com/80/v2-9f724fd2ba0a7c881d65bc53ec8ed06d_1440w.png)
很明显,Sam也是朝着这个目标去的。她在7个小时前发了一条推,上面只有一个单词“her”。
![](https://picx.zhimg.com/80/v2-fad99bbbc67374349e7b93f3562a71c1_1440w.png)
《Her她》是一部讲述在不远的未来人与人工智能相爱的科幻爱情电影。电影中男主的云端情人(人工智能系统OS1)由性感女神斯嘉丽·约翰逊配音。
寡姐是多少男人的梦中情人啊,有这样一个AI,还要啥女朋友?
说得有点远了,回归到GPT4o, HER显然还是一个目标,而不是现实。
但是确实值得来说一说,也许今天,已经在创造历史了。
我还没有仔细对比宣传视频和实际使用的差距,但是看到X上有人(@minchoi)概括和演示了GPT4o的十种使用场景,有点意思,和大家分享一下。
通过一些实际的使用场景,也可以更好地理解这个模型。
1.实时视觉助手
![](https://pic1.zhimg.com/80/v2-dff04cec0a614fb2479b28b7bdd8837c_1440w.png)
这应该是最惊艳演示了,就是你看到了什么,可以直接和GPT4o进行讨论,它能实时理解你看到的东西。
这个关于鸭子的演示,也很有意思,曾经谷歌也做过,但是后来大家发现谷歌是靠剪辑做的实时交互,GPT4o似乎可以通过摄像头直接实时交互。
我还没体验到,但是官方演示视频中也有演示这个功能。
2. 辅助学习
![](https://pic1.zhimg.com/80/v2-196c8d23dd2c4b8cefae50f7738579b3_1440w.png)
视频演示了GPT4o直接读 IPAD中给出的题目,并可以和家长和孩子,通过语音实时互动。
这简直就是学渣和学渣家长的福音啊。
GPT应该是一个不错的老师,至少不会像我这样暴跳如雷吧~~哈哈!
辅导过孩子作业的都知道,这个过程是有多崩溃。很快,也许GPT就能接过这个事情了,对我而言,这是刚需。
3. 实时翻译
![](https://picx.zhimg.com/80/v2-d6868bd5022d51abcfdb295735852886_1440w.png)
实时翻译功能,可以让GPT充当你的个人翻译,可以让两个说不同语言的人流畅沟通。
你只要和GPT约定好规则,你可以直接说中文,它立马翻译成日语,对方说日语,立马可以翻译成汉语。
你们想想看,这又是多少人的刚需啊。
学了几十年的英语,还是个渣渣,最终还是得靠科技啊~~
4.会议助手
![](https://picx.zhimg.com/80/v2-77dea1d8b6fa0b251f28fe573657d320_1440w.png)
我不喜欢开会,这个介绍跳过,你们可以自己想象一下。比如有人帮你录音,做会议纪要,做会议总结。
5. 实时中断并改变情绪
![](https://pic1.zhimg.com/80/v2-a8683ec930dd28050b1be9e432794021_1440w.png)
用过老版本GPT4语音通话的人,肯定有一点点崩溃的感觉。GPT4的语音反馈非常非常慢。
它必须先把你的语音转换成文字,然后在交给后端处理,处理完成之后又要把文本转换成语音,所以整个过程非常煎熬。
现在好了,新版GPT4o可以随时打断,随时插嘴了。
而且反馈速度也非常快,好像可以在几百毫米内作出反馈。这是一个巨大的实用性上的进步。
除了可以随时说话随时打断之外,还具有了通过声音理解和表达情绪的能力。
这句话的意思就是,她能从过你的声音感受到你的喜怒哀乐,你也可以让它用不同情绪来和你说话。
比如,“嗨,GPT来撒个娇” ,“请用无比兴奋的语气说,come on,baby” 哈哈哈~~
6. 把文字添加到图片中
![](https://picx.zhimg.com/80/v2-28bcebf252a47ff2e83bcc01e81f25a0_1440w.png)
这个功能不需要多解释啊,图片演示得很直观。不用P图了,直接生成。可以看到文字添加到图片后,和图片融合得天衣无缝。
7. 多人会议记录
![](https://picx.zhimg.com/80/v2-0d8ac5e67c03875ff3a3000057ac4442_1440w.png)
可以通过会议录音,直接提问“录音中有多少人,说了什么”。
回答说“有四个人,听起来像是一个项目管理的会议,马克正在介绍他自己....”
然后会把谁,说了什么,用文字的形式展现出来。
这种功能不算惊艳,但是很实用。
8. 3D物体合成
![](https://picx.zhimg.com/80/v2-5ae1a7ffdc965a767ed93cb50a1b46f3_1440w.png)
现在不光可以生成图片,还可以生成3D动画了么?
7. 海报制作
![](https://picx.zhimg.com/80/v2-8487f3316fa93b04684fbbd133282fab_1440w.png)
添加图片注释,不超过 140 字(可选)
输入两个人的照片,制作一张大片的海报。好基友,共进退!
8. 制作风格化的照片
![](https://pica.zhimg.com/80/v2-93746213f49e1c629fdffb443911eccc_1440w.jpg)
上传一张照片,添加一段描述,就能生成风格化的照片了。
这个功能并不新鲜,很多传统软件也有,只是现在可以通过统一的对话窗口,通过对话来完成了。
这颗痣保留得不错!
感觉GPT可以吞噬一切APP。
9. 定位精准的高阶P图
![](https://picx.zhimg.com/80/v2-7acaa04967537713e705716baed5f213_1440w.jpg)
给出一个openai的logo,给出一个没有品牌标识的杯垫。
通过描述,把openai的标志和文字刻到上面。
注意,不是贴上去的感觉,而是有刻上的感觉。
融合得非常自然。
10.生成特殊字体的文字
![](https://picx.zhimg.com/80/v2-a44378db184f66734bedb7eb0315d11c_1440w.jpg)
通过描述“字母 KLM NOP QRS 显示在三行中,像在字帖中展示字体一样。这是一种超未来的字体,是人工智能G命的标志” 来生成特殊字体。
十个场景说完了,前面几个比较宏大,后面的比较细致。
“机械组”要加油了,赶紧制造出一个逼真的身体吧!
上面是通过应用场景来感受GPT4o,下面是官方给出的基准测试。
![](https://pic1.zhimg.com/80/v2-8cc6a72e788351f840585ae1d2993d9e_1440w.png)
添加图片注释,不超过 140 字(可选)
不能说遥遥领先,也是保持了基本的领先。
另外也从侧面反映,OpenAI的对手们也咬得很紧。
Claude有点势均力敌的感觉,
谷歌也没有想象中的弱,
Llama3 400B在openai的测试中居然也这么强~~。
openai怎么不把国产模型也放在里面测一测呢?
是看不起李彦宏,还是看不起百度么?
哈哈,好大的胆子!
What's your problem!(请脑补画面)
当然,上面的测评只是基于文本的特定指标的基准测试,而这次最大的更新应该是基于视觉和声音,这两方面OpenAI应该属于“遥遥领先” !
从通用大模型的角度来说,OpenAI整体实力确实强,比较讨厌的是不开源,不好抄😂!
![](https://pic1.zhimg.com/80/v2-bb3c3da1dc4e35e0f54f876ead929dce_1440w.jpg)
添加图片注释,不超过 140 字(可选)
最后,要注意!
新模型API加量不加价,还降价了。API玩家可以笑😊一个!
另外,ChatGPT桌面版要来了!PC党狂喜😁。
另外,OPENAI的新模型和之前的一大波付费功能,大部分都可以免费使用了。
包括:
GPT4和应用商店,
视觉功能,
联网功能,
记忆功能,
扩展数据分析功能。
白嫖党也可以鼓掌👏 了!
哈哈哈,笑死我了。
我发布这篇文章之后发现一个很诡异的事情,编号是10,但是实际上有12个点。
回过去看推,发现推主编号错误,我要不要提醒一下他😆。
官方视频:
https://www.youtube.com/watch?v=DQacCB9tDaw
内容来源:
https://twitter.com/minchoi
个人博客:
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· PPT革命!DeepSeek+Kimi=N小时工作5分钟完成?
· What?废柴, 还在本地部署DeepSeek吗?Are you kidding?
· DeepSeek企业级部署实战指南:从服务器选型到Dify私有化落地
· 程序员转型AI:行业分析
· 重磅发布!DeepSeek 微调秘籍揭秘,一键解锁升级版全家桶,AI 玩家必备神器!
2019-05-14 OpenFaceswap 入门教程(2):软件使用篇!
2019-05-14 OpenFaceswap 入门教程(1):软件安装篇