OpenAI Realtime API 迎来降价;朱啸虎首个 AI 硬件项目 Gyges Labs:轻量化近眼显示光学方案

 

 

开发者朋友们大家好:

 

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、OpenAI 新加坡发布会演示 Realtime API 最新进展

 

OpenAI 在新加坡的发布会 OpenAI Dev Day 上演示了 Realtime API,带来了更强大的实时语音交互功能,甚至支持多种语言的混合输入,混合输出,并且情绪、语气非常到位,现场效果很炸裂。

 

以及,发布会上说明,Realtime 的语音 API 也迎来了 Cache 调价,输出部分打了 2 折。简单计算,对于大量相近内容的客服场景,调用成本大概是 50 人民币/小时,和人工队相比,开始有了竞争力。

 

另一个演示,是让 AI 来点单:在过程中,AI 进行了全自动点餐,包括确认需求,以及... 调整价格。

 

还有个有趣的,演讲者让 Realtime API based demo 从 0 开始输出,慢慢的:

 

于是 One...Two...Three...F- [打断]

 

问:现在你数到几了?

 

回答:Four

 

对于 Function Call,Realtime API 也获得了更新。这使得之后的实时语音,不局限于对话了,而是可以进行如操作电脑、联网、查找资料等功能。(@赛博禅心)

 

2、DeepSeek 推首款推理模型 R1-Lite-Preview,性能超越 OpenAI o1

 

 

中国私募巨头幻方量化旗下的 DeepSeek,近日发布了其最新的推理专注型大型语言模型 R1-Lite-Preview。该模型目前仅通过 DeepSeek Chat 这一网页聊天机器人平台提供给公众使用。

 

尽管 R1-Lite-Preview 目前仅在聊天应用中可用,但它已凭借接近甚至超过 OpenAI 近期发布的 o1-preview 模型的性能引起了广泛关注。

 

根据 DeepSeek 的说法,该模型在需要逻辑推理、数学思考和实时问题解决的任务中表现出色。其性能在 AIME(美国邀请数学考试)和 MATH 等已建立的基准测试中超越了 OpenAI o1-preview 的水平。此外,DeepSeek 还发布了模型的扩展数据,展示了在给予模型更多时间或 「思考令牌」 以解决问题时,其准确性稳步提高的趋势。图表强调,随着思维深度的增加,该模型在 AIME 等基准上的得分提升。

 

目前,R1-Lite-Preview 的发布在关键基准中表现优异,能够处理从复杂数学到逻辑场景的一系列任务,得分与顶级推理模型如 GPQA 和 Codeforces 相当。该模型透明的推理过程让用户能够实时观察其逻辑步骤,增强了系统的责任感和可信度。

 

值得注意的是,DeepSeek 尚未发布完整的代码供第三方独立分析或基准测试,也未提供 API 接口供独立测试,该公司尚未发布相关的博客文章或技术文档,说明 R1-Lite-Preview 的训练或架构,这让其背后的起源依然充满疑问。

 

R1-Lite-Preview 目前可以通过 DeepSeek Chat 免费使用,但其高级 「深思」 模式每天限量 50 条消息,用户可借此体验其强大能力。DeepSeek 计划发布 R1 系列模型的开源版本和相关 API,进一步支持开源 AI 社区的发展。 (@AIbase 基地)

 

3、OpenAI 薪酬曝光,CEO 奥特曼年薪仅 55 万

 

据一份新发布的税务申报文件显示,OpenAI 的 CEO 奥特曼去年的年薪仅为 76001 美元,相较于 2022 年的 73546 美元略有增加,这一薪酬水平与国内互联网大厂的基础工资相当。

 

相比之下,OpenAI 的前首席科学家伊利亚·苏茨克弗的薪酬则是奥特曼的四倍多,达到 322201 美元。这份文件还显示,奥特曼短暂被解雇期间,临时 CEO 埃米特·谢尔的日薪约为 338.18 美元,是奥特曼的两倍左右。

 

尽管高管们的总薪酬未完全披露,因为文件中未包含可能的股权激励和外部投资情况,但这份文件揭示了 OpenAI 的财务状况和慈善活动。

 

不过,奥特曼虽然年薪不高,但其个人财富估计至少达到 20 亿美元,主要来源于他在科技领域的投资,包括 Uber、Airbnb 等公司的股份。此外,OpenAI 重组为盈利性公益公司后,关于奥特曼是否会获得公司股权的讨论仍在进行中,但他本人否认了获得巨额股权的计划。

 

值得注意的是,OpenAI 在 10 月份最新一轮融资中筹集了 66 亿美元(约合人民币 463 亿元),融资后估值达到 1570 亿美元(约合人民币 1.1 万亿元)。( @APPSO)

02有亮点的产品

1、AI 版本《黑客帝国》问世!The Matrix 实现无限生成 720p 视频,3A 画质

 

近日,一个名为 「The Matrix」 的 AI 基础世界模拟器正式推出,这一创新成果由一个全华人团队,能够实现无限生成高保真的 720p 真实场景视频,并且支持实时交互。

 

该模拟器展示了一个 14 分钟的演示视频,实际上,它可以持续生成长达一个小时的内容,涵盖沙漠、草原、水体和城市等多场景。在体验过程中,用户可以通过键盘的 WA、S、D 键进行实时控制,感受每秒 16 帧的动态画面。

 

「The Matrix」 项目的开发团队成员来自阿里巴巴、香港大学、滑铁卢大学和加拿大 AI 研究机构 Vector Institute。他们命名为 「The Matrix」,正是受到了电影中一句经典台词的启发:这是你熟悉的世界;它现在只存在于我们称之为 Matrix 的神经交互模拟系统中。

 

该项目的核心亮点在于其提供了前所未有的帧级控制,让用户的每一个操作都能得到即时响应,仿佛身临其境。用户可以在第一人称或第三人称视角下,体验驾驶汽车穿越沙漠、森林或城市等不同场景。

 

除了能够无限生成视频和高质量的画面之外,「The Matrix」 还具备了零样本泛化的。这意味着,模拟器可以在没有相应训练数据的情况下,理解并预测不同环境中物体的行为和交互。

 

该模拟的训练数据主要来源于三款 3A 游戏的监督数据和大量现实场景的无监督视频。与以往的研究不同,这一技术的创新在于它的学习能力,使其能在未见过的环境中进行准确的生成。

 

例如,模拟器可以展现 「宝马 X3 在环境中行驶场景,或是 「车在水中游泳」 的奇妙画面。

 

项目负责人 Hongyang Zhang 和 Ruili Feng 表示,未来还会继续推动这一技术的发展,力求为用户带来更加逼真的虚拟体验。(@AIbase 基地)

 

2、全新突破!YouTube Shorts 上线 AI 视频背景生成功能

 

 

图片

 

YouTube 在本周四为其 Shorts 功能带来重磅更新。通过整合 Google DeepMind 的 Veo 视频生成模型,Dream Screen 功能现已支持 AI 视频背景生成,可输出 1080p 高清视频,让创作者们的短视频创作如虎添翼。

 

这项技术的应用极为简单直观。创作者只需打开 Shorts 相机,点击「绿幕」图标,选择「Dream Screen」功能,输入想要的场景描述,比如「糖果世界」或「溪流穿过的魔法森林」。选定动画风格后,系统便会生成多个视频背景供选择,创作者可以在这些动态背景前录制视频内容。

 

这一功能为创作者开启了无限可能:无论是将自己置身于心爱小说的场景中,还是为短视频制作独特的动画开场,都能轻松实现。YouTube 更透露,未来还将推出 6 秒独立视频片段的生成功能,进一步丰富创作选项。

 

目前,这项新功能已在美国、加拿大、澳大利亚和新西兰率先上线。值得注意的是,这项创新功能让 YouTube 在短视频领域占据了技术优势。目前短视频市场的领军平台 TikTok 仅支持 AI 静态背景图片生成,尚未推出视频背景生成功能。(@AIbase 基地)

 

3、Gyges Labs 宣布完成数千万元 Pre-A 轮融资,拥有轻量化近眼显示光学方案

 

据「智能涌现」报道,Gyges Labs(前仙瞬科技)宣布完成了数千万元的 Pre-A 轮融资,投资方包括金沙江创投、韶音创始人陈皞以及 NYX Ventures。

 

这家成立于 2022 年的公司专注于利用光学和协同式 AI 技术打造智能可穿戴设备,其核心团队成员背景显赫,包括斯坦福、清华等顶尖高校毕业生,并拥有在苹果、谷歌等国际科技企业的工作经验。

 

Gyges Labs 的核心技术「DigiWindow」能够将光学模组体积大幅缩小,提升智能眼镜的佩戴体验,同时兼容普通视光学镜片,满足不同视力需求。

 

公司计划在 2025 年 CES 展会期间发布首款与 moody 合作的 AI 眼镜产品,该产品重量采用自研毫米级光学技术和协同式 AI 引擎,具备实时环境感知、智能翻译等功能。这也意味着著名投资人朱啸虎首次涉足 AI 硬件领域。(@APPSO)

 

4、GetPickle AI:让你的替身帮你开会 你去干别的

 

GetPickle.ai 是一款致力于革新虚拟会议体验的AI工具,其核心技术通过提供高度逼真的AI克隆化身,使用户能够在不使用摄像头的情况下参加视频通话,保持会议的参与度和互动性。

 

也就是,它一款让你的通过“AI替身”替你参加视频会议的工具。它可以帮你解决不方便开摄像头的尴尬,比如没化妆、在路上或者只是想偷个懒。Pickle 的 AI 化身会像你一样出现在镜头里,说你的话、做你的表情,看起来就像你真的在参加会议。(@小互AI)

03有态度的观点

1、图灵奖得主 Yoshua Bengio:人类仍缺乏可靠的方法来管理和约束 AI

 

图灵奖得主、计算机科学家 Yoshua Bengio 在《金融时报》上发表文章,表达自己对于人工智能的最新看法。

 

他表示,人们一直认为 AI 的一大核心弱点是其缺乏「思考」能力 —— 即内部推理能力。但 OpenAI 在这一领域最近取得了进展,这使自己和许多专家认为,我们可能正在迈向弥合人工智能与人类推理能力差距的关键时刻。

 

OpenAI 的最新进展依托 o1 大型语言模型,这一模型具备一定的内部推理能力,目前尚未对公众全面开放。这一趋势标志着 AI 发展的新方向:不仅依赖更大的模型和更多的数据,还需要投入更多时间进行推理。这种方法在数学、计算机科学及其他科学领域的大量推理任务中展现出卓越性能。

 

他也认为,这种技术的成功带来了新的风险 —— 目前人类仍然缺乏可靠的方法来管理和约束 AI。「例如,o1 的评估显示其欺骗人类的能力有所增强,这正是目标实现能力提升的自然结果。更令人担忧的是,o1 在协助制造生物武器方面的能力已达到 OpenAI 的中等风险级别,这是公司定义的最高容忍度(尽管这一标准可能存在降低外界担忧的动机)。」

 

据 IT 之家此前报道,OpenAI 本月中旬被曝计划于 2025 年 1 月,以研究预览和开发工具的形式,推出名为「Operator」的自动化 AI 智能体,可以独立控制计算机并执行各种任务。(@IT 之家)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

图片

 

素材来源官方媒体/网络新闻

posted @ 2024-11-22 17:43  声网  阅读(4)  评论(0编辑  收藏  举报