OpenAI 推出嵌入式硬件 SDK,支持 ESP32 语音开发;INFP:音频驱动的双人对话头像生成,自动区分说话者和倾听者
开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、GPT-5 「难产」细节曝光
近日,据华尔街日报报道,OpenAI 的 GPT-5 进度出现落后,并且将不能按时发布。
和此前爆料一致,代号为猎户座(Orion) 的 GPT-5 开发周期已经超过 18 个月。OpenAI 「金主」微软本来预计它能在 2024 年中发布,但结果显而易见,GPT-5 已经「难产」。
据悉,OpenAI 给 GPT-5 设定的目标不低,Orion 至少试了两轮大规模训练,但效果都未达预期,成品只是比现在的产品是强了点,但投入产出比极低,据估计,六个月的训练运行就要烧掉大约 5 亿美元(折合人民币 36.48 亿元)。
2023 年年中,OpenAI 启动了代号为「Arrakis」的测试项目,旨在验证 Orion 新设计的有效性和可行性,测试过程成本过高。2024 年初,OpenAI 决定开始新一轮尝试。5 月,研究团队认为时机成熟,启动了一项预计持续到 11 月的大规模训练。但训练中出现数据多样性不足的问题。此后,OpenAI 另辟蹊径,专门招聘软件工程师和数学家写代码、解数学题来为 Orion 提供学习材料,并详细记录解决问题的思维过程。同时寻求专家合作以及用推理模型 o1 生成合成数据,并结合传统数据来不断改进模型生成结果。
目前,迫于研发进度的延缓,OpenAI 开始将注意力转向其他项目,包括开发 GPT-4 的各种版本和 Sora 等。知情人士透露,这也导致开发新产品的团队和 Orion 研究人员之间为争夺有限的计算资源打得不可开交。
此前,包括 Ilya Sutskever、Mira Murati、Alec Radford 在内的 20 多名核心高管和资深员工都离开了 OpenAI,给 OpenAI 带来了不小的冲击。(@ APPSO)
2、Livekit 开源精准语音轮次检测模型,可精准识别用户是否说完话
目前 AI 语音最难解决的问题之一是回合结束检测,也就是要么:
-
过早响应:用户只是停顿思考,系统却以为用户说完了
-
过晚响应:用户已经完成发言,但系统未及时反应
Livekit 模型能精准判断「用户是否说完话」,然后才开始响应。
传统方法主要依赖语音活动检测(VAD),但 VAD 只关注语音信号的存在与否,忽略了语义层面的信息,因此容易受到停顿和背景噪声的干扰。
Livekit 通过结合 Transformer 模型和传统的语音活动检测(VAD),来改进对「轮次结束检测」(End of Turn Detection, EOT)的判断。以更好地判断用户是否完成发言。
测试结果显示,错误打断减少了 85%,也就是说,语音助手变得更加自然和不容易误判。
这种技术相比传统方法更加准确和智能,可以用来改进语音人工智能(比如语音助手、客服机器人)在对话中判断「用户是否说完话」的能力。(@ xiaohu@X)
3、INFP:基于音频驱动的双人对话中的互动头像生成,能自动区分谁在说话,谁在听
INFP 是由字节跳动开发的一种音频驱动的交互式头部生成框架,主要应用于双人对话场景。意为「在双人对话中基于音频驱动的互动式头像生成」。
它能通过语音输入生成动态头像动画,包括嘴唇同步、面部表情和头部动作。这些生成的头像能自然地模拟对话双方的互动状态,而且能自动切换「说话者」和「倾听者」的角色,也就是两个人对话时,它能自动区分谁在说话,谁在听。对于说话者,它能嘴唇同步语音内容,同时展现自然的头部和表情动作,而对于倾听者,它能够生成自然的面部反应(如点头、微笑、疑惑)和倾听姿态。(@小互 AI)
4、DeepSeek 关键开发者将加入小米,领导大模型团队
据第一财经获悉,DeepSeek 开源大模型 DeepSeek-V2 的关键开发者之一罗福莉将加入小米,或供职于小米 AI 实验室,领导小米大模型团队。
据有知情人士称,雷军认为小米在大模型领域发力太晚,于是亲自挖人,重金招募能够领军小米大模型的人才,支付的薪酬水平在千万元级别。
小米 AI 实验室正式成立于 2016 年年初,目前团队大约有 250 人,研究方向包括视觉、声学、语音、自然语言处理(NLP)、知识图谱、机器学习和大模型。2023 年 4 月,小米成立专门的大模型团队,由栾剑担任负责人。小米的大模型技术主要聚焦于模型的轻量和本地部署,已研发出 MiLM 系列模型,并升级至第二代 MiLM2,部分模型已在小米的产品中得到应用。
据悉,罗福莉硕士毕业于北京大学计算语言学研究所,并在自然语言处理领域有着杰出的研究经历和成果。此后,罗福莉在阿里巴巴的达摩院机器智能实验室工作,并主导开发了多语言预训练模型 VECO。2022 年,罗福莉参与 DeepSeek 的 MoE 大模型 DeepSeek-V2 的开发。报道指出,罗福莉的加入可能加速小米在大模型领域的研发进度。(@ APPSO)
02 有亮点的产品
1、OpenAI 推出 Realtime Embedded SDK 专门用在小型硬件设备
OpenAI 推出 Realtime Embedded SDK,使微控制器(如 ESP32)实现实时 AI 功能,支持语音交互与自然语言处理;
应用场景覆盖智能家居、物联网与机器人,增强设备智能交互与环境理解能力。
SDK 提供便捷工具链,支持快速部署与云端 AI 连接,或激发相关硬件市场需求,支持 Linux 和 ESP32S3 平台,无需额外硬件即可在 Linux 上运行。
开发者只需安装 protobufc 和设置目标平台,配置 WiFi 和 OpenAI API 密钥后即可构建和部署应用。(@腾讯研究院)
2、汤姆猫推出 AI 童伴机器人:支持主动聊天、情绪识别
汤姆猫于 12 月 21 日在京东等平台推出 AI 童伴机器人,共有经典款、豪华款、尊享款三个版本,售价分别为 1499 元、1699 元、1999 元。
商品页面显示,这款产品配备「灵动双眼」,支持情绪识别、趣味打断、主动聊天 等功能。无需触发按键,一声「汤姆猫」即可切换对话场景。此外,该产品还支持一次唤醒,连续对话。
功能上,新品支持中英文双语交互、万物百科等,产品外观为肤感硅胶材质。
汤姆猫此前介绍称,AI 语音情感陪伴机器人的头部设有传动装置,可以自动根据听到的声音辨别位置与方向,120° 自由转头,面向用户进行语音对话。此外,该产品支持耳朵和嘴巴自然活动,设计了 20 多款灵动表情;3000 毫安时容量电池,产品采用肤感硅胶材质,可自由摆动的手臂。(@IT 之家)
03 有态度的观点
1、戴尔创始人:产品更新通常会被低估
近日,戴尔创始人迈克尔・戴尔向《财富》杂志表示,并不担心 AI PC 遇冷,产品更新通常会被低估。
在回复中他指出,尽管 AI 技术发展迅速,但将 AI 应用到消费者级别的设备和应用中仍需要时间。他表示,已经不止一次经历过这样的情况了,产品更新通常会被低估,有时进展稍微快一点,有时则较慢。
戴尔提到,AI 不仅将影响 PC 设备,还将在云计算和企业级应用中扮演越来越重要的角色。他看好 AI 技术对各个行业的渗透,特别是在数据分析、自动化和智能化方面。
戴尔表示,对未来保持乐观,并不担心 AI PC 遇冷。认为随着技术的成熟,AI 将彻底改变 PC 市场,推动新一轮的设备更新换代,尤其是在高性能计算和智能硬件方面。(@ APPSO)
04 社区项目推荐
1、remixly.ai :一款由 AI 驱动的音频处理平台
remixly.ai 是一款由 AI 驱动的音频处理平台,集成了多种音频编辑功能,包括伴奏移除、音调调节和人声转换,旨在简化音频创作与处理流程,节省时间和精力。remixly 不仅满足音频编辑的常见需求,还支持自定义工作流,让团队根据自身需求灵活调整处理流程,提升创作效率。无论是进行内容生产,甚至是构建自己的音频应用,remixly 都能提供高效的支持。
产品亮点:
-
多功能音频处理工具集: 包含伴奏移除、音调调节、人声转换等功能,减少工具切换,提升工作效率。
-
自定义工作流: 为中小型团队提供灵活的工作流设计,可以根据不同音频处理场景定制自动化流程,显著节省人工操作时间。
-
API 支持与集成: 可为开发者和企业客户提供全面的 API 接口,支持与现有系统、产品的集成,帮助您基于我们的平台快速构建音频处理应用。
2、Tempo-Pulse 触觉音乐播放器
Tempo-Pulse 是一款由 AI 驱动的音乐触觉播放器,你可以搜索或上传任何你喜欢的音乐,Tempo 会为你带来独一无二的触觉体验,听障人士也可以通过 Tempo-Pulse 感受音乐的律动,享受音乐的魅力。
以上信息由 RTE 开发者社区成员通过社区网站投稿提供,如果你也有与实时互动(Real-Time Engagement,RTE)相关的项目分享,欢迎访问网站 rtecommunity.dev 发布,优秀项目将会在公众号发布分享。同时还有 RTE Meetup demo 分享、《编码人声》播客录制、RTE Open Day 展位优先申请等机会。
有意投稿者请联系微信 creators2022 ,请备注身份和来意。
更多 Voice Agent 学习笔记:
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服
语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场
下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻