OpenAI 推出嵌入式硬件 SDK，支持 ESP32 语音开发；INFP：音频驱动的双人对话头像生成，自动区分说话者和倾听者

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、GPT-5 「难产」细节曝光

近日，据华尔街日报报道，OpenAI 的 GPT-5 进度出现落后，并且将不能按时发布。

和此前爆料一致，代号为猎户座（Orion）的 GPT-5 开发周期已经超过 18 个月。OpenAI 「金主」微软本来预计它能在 2024 年中发布，但结果显而易见，GPT-5 已经「难产」。

据悉，OpenAI 给 GPT-5 设定的目标不低，Orion 至少试了两轮大规模训练，但效果都未达预期，成品只是比现在的产品是强了点，但投入产出比极低，据估计，六个月的训练运行就要烧掉大约 5 亿美元（折合人民币 36.48 亿元）。

2023 年年中，OpenAI 启动了代号为「Arrakis」的测试项目，旨在验证 Orion 新设计的有效性和可行性，测试过程成本过高。2024 年初，OpenAI 决定开始新一轮尝试。5 月，研究团队认为时机成熟，启动了一项预计持续到 11 月的大规模训练。但训练中出现数据多样性不足的问题。此后，OpenAI 另辟蹊径，专门招聘软件工程师和数学家写代码、解数学题来为 Orion 提供学习材料，并详细记录解决问题的思维过程。同时寻求专家合作以及用推理模型 o1 生成合成数据，并结合传统数据来不断改进模型生成结果。

目前，迫于研发进度的延缓，OpenAI 开始将注意力转向其他项目，包括开发 GPT-4 的各种版本和 Sora 等。知情人士透露，这也导致开发新产品的团队和 Orion 研究人员之间为争夺有限的计算资源打得不可开交。

此前，包括 Ilya Sutskever、Mira Murati、Alec Radford 在内的 20 多名核心高管和资深员工都离开了 OpenAI，给 OpenAI 带来了不小的冲击。(@ APPSO)

2、Livekit 开源精准语音轮次检测模型，可精准识别用户是否说完话

目前 AI 语音最难解决的问题之一是回合结束检测，也就是要么：

过早响应：用户只是停顿思考，系统却以为用户说完了
过晚响应：用户已经完成发言，但系统未及时反应

Livekit 模型能精准判断「用户是否说完话」，然后才开始响应。

传统方法主要依赖语音活动检测（VAD），但 VAD 只关注语音信号的存在与否，忽略了语义层面的信息，因此容易受到停顿和背景噪声的干扰。

Livekit 通过结合 Transformer 模型和传统的语音活动检测（VAD），来改进对「轮次结束检测」（End of Turn Detection， EOT）的判断。以更好地判断用户是否完成发言。

测试结果显示，错误打断减少了 85%，也就是说，语音助手变得更加自然和不容易误判。

这种技术相比传统方法更加准确和智能，可以用来改进语音人工智能（比如语音助手、客服机器人）在对话中判断「用户是否说完话」的能力。(@ xiaohu@X)

3、INFP：基于音频驱动的双人对话中的互动头像生成，能自动区分谁在说话，谁在听

INFP 是由字节跳动开发的一种音频驱动的交互式头部生成框架，主要应用于双人对话场景。意为「在双人对话中基于音频驱动的互动式头像生成」。

它能通过语音输入生成动态头像动画，包括嘴唇同步、面部表情和头部动作。这些生成的头像能自然地模拟对话双方的互动状态，而且能自动切换「说话者」和「倾听者」的角色，也就是两个人对话时，它能自动区分谁在说话，谁在听。对于说话者，它能嘴唇同步语音内容，同时展现自然的头部和表情动作，而对于倾听者，它能够生成自然的面部反应（如点头、微笑、疑惑）和倾听姿态。（@小互 AI）

4、DeepSeek 关键开发者将加入小米，领导大模型团队

据第一财经获悉，DeepSeek 开源大模型 DeepSeek-V2 的关键开发者之一罗福莉将加入小米，或供职于小米 AI 实验室，领导小米大模型团队。

据有知情人士称，雷军认为小米在大模型领域发力太晚，于是亲自挖人，重金招募能够领军小米大模型的人才，支付的薪酬水平在千万元级别。

小米 AI 实验室正式成立于 2016 年年初，目前团队大约有 250 人，研究方向包括视觉、声学、语音、自然语言处理（NLP）、知识图谱、机器学习和大模型。2023 年 4 月，小米成立专门的大模型团队，由栾剑担任负责人。小米的大模型技术主要聚焦于模型的轻量和本地部署，已研发出 MiLM 系列模型，并升级至第二代 MiLM2，部分模型已在小米的产品中得到应用。

据悉，罗福莉硕士毕业于北京大学计算语言学研究所，并在自然语言处理领域有着杰出的研究经历和成果。此后，罗福莉在阿里巴巴的达摩院机器智能实验室工作，并主导开发了多语言预训练模型 VECO。2022 年，罗福莉参与 DeepSeek 的 MoE 大模型 DeepSeek-V2 的开发。报道指出，罗福莉的加入可能加速小米在大模型领域的研发进度。(@ APPSO)

02 有亮点的产品

1、OpenAI 推出 Realtime Embedded SDK 专门用在小型硬件设备

OpenAI 推出 Realtime Embedded SDK，使微控制器（如 ESP32）实现实时 AI 功能，支持语音交互与自然语言处理；

应用场景覆盖智能家居、物联网与机器人，增强设备智能交互与环境理解能力。

SDK 提供便捷工具链，支持快速部署与云端 AI 连接，或激发相关硬件市场需求，支持 Linux 和 ESP32S3 平台，无需额外硬件即可在 Linux 上运行。

开发者只需安装 protobufc 和设置目标平台，配置 WiFi 和 OpenAI API 密钥后即可构建和部署应用。（@腾讯研究院）

2、汤姆猫推出 AI 童伴机器人：支持主动聊天、情绪识别

汤姆猫于 12 月 21 日在京东等平台推出 AI 童伴机器人，共有经典款、豪华款、尊享款三个版本，售价分别为 1499 元、1699 元、1999 元。

商品页面显示，这款产品配备「灵动双眼」，支持情绪识别、趣味打断、主动聊天 等功能。无需触发按键，一声「汤姆猫」即可切换对话场景。此外，该产品还支持一次唤醒，连续对话。

功能上，新品支持中英文双语交互、万物百科等，产品外观为肤感硅胶材质。

汤姆猫此前介绍称，AI 语音情感陪伴机器人的头部设有传动装置，可以自动根据听到的声音辨别位置与方向，120° 自由转头，面向用户进行语音对话。此外，该产品支持耳朵和嘴巴自然活动，设计了 20 多款灵动表情；3000 毫安时容量电池，产品采用肤感硅胶材质，可自由摆动的手臂。（@IT 之家）

03 有态度的观点

1、戴尔创始人：产品更新通常会被低估

近日，戴尔创始人迈克尔・戴尔向《财富》杂志表示，并不担心 AI PC 遇冷，产品更新通常会被低估。

在回复中他指出，尽管 AI 技术发展迅速，但将 AI 应用到消费者级别的设备和应用中仍需要时间。他表示，已经不止一次经历过这样的情况了，产品更新通常会被低估，有时进展稍微快一点，有时则较慢。

戴尔提到，AI 不仅将影响 PC 设备，还将在云计算和企业级应用中扮演越来越重要的角色。他看好 AI 技术对各个行业的渗透，特别是在数据分析、自动化和智能化方面。

戴尔表示，对未来保持乐观，并不担心 AI PC 遇冷。认为随着技术的成熟，AI 将彻底改变 PC 市场，推动新一轮的设备更新换代，尤其是在高性能计算和智能硬件方面。(@ APPSO)

04 社区项目推荐

1、remixly.ai ：一款由 AI 驱动的音频处理平台

remixly.ai 是一款由 AI 驱动的音频处理平台，集成了多种音频编辑功能，包括伴奏移除、音调调节和人声转换，旨在简化音频创作与处理流程，节省时间和精力。remixly 不仅满足音频编辑的常见需求，还支持自定义工作流，让团队根据自身需求灵活调整处理流程，提升创作效率。无论是进行内容生产，甚至是构建自己的音频应用，remixly 都能提供高效的支持。

产品亮点：

多功能音频处理工具集： 包含伴奏移除、音调调节、人声转换等功能，减少工具切换，提升工作效率。
自定义工作流： 为中小型团队提供灵活的工作流设计，可以根据不同音频处理场景定制自动化流程，显著节省人工操作时间。
API 支持与集成： 可为开发者和企业客户提供全面的 API 接口，支持与现有系统、产品的集成，帮助您基于我们的平台快速构建音频处理应用。

2、Tempo-Pulse 触觉音乐播放器

Tempo-Pulse 是一款由 AI 驱动的音乐触觉播放器，你可以搜索或上传任何你喜欢的音乐，Tempo 会为你带来独一无二的触觉体验，听障人士也可以通过 Tempo-Pulse 感受音乐的律动，享受音乐的魅力。

以上信息由 RTE 开发者社区成员通过社区网站投稿提供，如果你也有与实时互动（Real-Time Engagement，RTE）相关的项目分享，欢迎访问网站 rtecommunity.dev 发布，优秀项目将会在公众号发布分享。同时还有 RTE Meetup demo 分享、《编码人声》播客录制、RTE Open Day 展位优先申请等机会。

有意投稿者请联系微信 creators2022 ，请备注身份和来意。