语音生成公司 ElevenLabs 估值达 30 亿美元;OpenAI Realtime API 很好也很贵丨RTE 开发者日报
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、语音生成 AI 公司 ElevenLabs 新一轮融资估值达 30 亿美元
据消息称,专注于为音频应用开发 AI 工具的初创公司 ElevenLabs,正在与现有及新投资者洽谈新一轮融资,估值可能高达 30 亿美元。这家成立仅两年的公司,专注于为有声读物生成合成声音,并为视频提供实时语言配音。
虽然谷歌的 Gemini 和 OpenAI 都推出了自己的语音模型,但这两家巨头的产品尚未达到 ElevenLabs 那样的语音克隆能力。其他竞争者包括 Murf、Tavus、Resemble AI、Respeecher 和 Lovo 等公司,它们也在争夺合成语音生成市场的份额。
2、5 秒内快速生成、直出工业级 PBR 资产,三维扩散模型 3DTopia-XL 开源
上海人工智能实验室等联合发布了一款名为 3DTopia-XL 的三维扩散模型,该模型能够快速从图片或文字描述生成具有物理渲染材质的高质量三维数字资产。3DTopia-XL 采用了一种新的三维表征技术 PrimX 和基于 DiT 的生成架构,能够在 5 秒内生成超写实的三维模型。
这项技术关键创新在于 PrimX ,它将三维物体表示为一系列符号距离场的集合,每个集合仅对局部的几何、纹理和材质进行建模,从而高效地表示三维数据。3DTopia-XL 的参数规模达到 10 亿,但比之前的模型更小,运行时只需要 6GB 的显存。模型的生成结果可以无缝导入主流游戏引擎和工业设计软件,如 Blender 和 UE ,用于渲染和进一步的处理。(@新智讯)
3、Meta 证实:Ray-Ban 眼镜拍摄的照片和视频会被用于训练 AI 模型
据外媒报道,Meta 公司证实,用户用 Ray-Ban Meta 智能眼镜拍摄的照片和视频可能会被用于训练其 AI 模型。Meta 政策传播经理 Emil Vazquez 在一封电子邮件中表示:「在多模态 AI 可用的地区(目前为美国和加拿大),与 Meta AI 共享的图像和视频可能会被用于改进我们的 AI 模型,这符合我们的隐私政策。」
此前,Meta 一位发言人澄清称,只要用户不将照片和视频提交给 AI,这些数据就不会被用于训练 Meta 的 AI 模型。然而,一旦用户要求 Meta AI 分析这些照片,它们就会受到不同的政策约束。换句话说,唯一避免这种情况的方法是不使用 Meta 的多模态 AI 功能。这一做法引发了人们的担忧,因为 Ray-Ban Meta 用户可能并不了解他们正在向 Meta 提供大量图像用于训练其 AI 模型,这些图像可能包含他们的家庭内部、亲人或个人文件等信息。(@IT 之家)
4、英伟达推出 ACE 虚幻引擎 5 插件,打造逼真数字人
10 月 7 日,英伟达 ACE(Avatar Cloud Engine)是一套可帮助开发者利用生成式 AI 创建栩栩如生的虚拟数字人物的技术。在 ACE 的加持下,普通的非玩家角色(NPC)可以摇身一变,成为能够发起对话或引导玩家找到新任务的动态交互式角色。在 2024 年西雅图虚幻节上,英伟达发布了适用于 Nvidia ACE 的新虚幻引擎 5 设备端插件,可以让开发者更轻松地在 Windows PC 上构建和部署 AI 驱动的 MetaHuman 角色。
值得一提的是,ACE 技术不仅能生成逼真的面部动画,还具备强大的上下文理解能力。借助检索增强生成(RAG)技术,数字人能够根据对话历史和上下文做出更自然、更符合逻辑的反应。此次与虚幻引擎 5 的集成,使得开发者能够更加便捷地将 ACE 技术应用于游戏开发中。英伟达还提供了示例项目,为开发者提供了一个清晰的指引,帮助他们快速上手。(@IT 之家)
5、很好也很贵?OpenAI Realtime API 一手体验和 Voice AI 的未来 |播客《编码人声》
OpenAI Realtime API 发布了,你准备好了么?
Realtime API 让开发者可以构建近乎实时的「语音到语音」的体验,无需将多个模型拼接在一起进行转录、推理和文本到语音的转换,实现更流畅的打断体验,还可以无缝切换多种语言。
本期节目请来了第一批接入并体验 OpenAI Realtime API 的开发者,为你解析背后的技术和开发者的新机会。
两位嘉宾分别是在实时多模态 AI 领域深耕多年的专家——开源实时多模态 AI 框架 TEN Framework 的联合发起人 Plutoless ,以及拾象科技的 AI Research Lead 钟凯祺 Cage。
节目深度分析了 OpenAI Realtime API 的优势与挑战,讨论了实时多模态 AI 如何实现语音进、语音出的端到端交互,大幅降低延迟,提升用户体验,使得与 AI 的对话更加自然流畅。也谈到了目前存在的高昂成本和技术集成的复杂性,以及这些问题对开发者意味着什么。
此外,嘉宾们还深入探讨了实时多模态 AI 的定义,什么才是真正的实时多模态?他们分享了自己在实践中遇到的挑战和最佳实践,探讨了在 OpenAI Realtime API 的背景下,开发者如何抓住新的机遇。他们也展望了 AI 在未来实时互联网中的角色,讨论了 AI 安全、人与 AI 的协作、多模态交互等话题。(@编码人声)
02 有态度的观点
1、李飞飞:我不知道什么是 AGI
在周四的 Credo AI 负责任的人工智能领导峰会上,世界著名研究员常被称为「人工智能教母」的李飞飞表示,她也不知道什么是 AGI。在其他时刻,李飞飞讨论了她在现代人工智能诞生中的角色,社会应该如何保护自己免受先进人工智能模型的影响,以及她为什么认为她的新独角兽初创公司 World Labs 将改变一切。
但当被问及她对「人工智能奇点」的看法时,李和我们其他人一样感到困惑。「我来自人工智能学术界,接受过更严格和基于证据的方法的教育,所以我并不太清楚这些词的意思,」李在旧金山一个挤满人的房间里说,旁边是一扇俯瞰金门大桥的大窗户。「坦率地说,我甚至不知道 AGI 是什么意思。人们说你见到它就知道,我想我还没有见过。事实上,我并不花太多时间思考这些词,因为我认为还有很多更重要的事情要做……」(@Z Potentials)
2、Cursor 创始团队最新访谈:如果 Github 整合 o1,Cursor 可能要倒闭了
Cursor 是一款基于 VS Code 的代码编辑器,它为 AI 辅助编程添加了许多强大的功能,吸引了编程界和人工智能界的关注和兴奋。近日,知名播客节目主持人 Lex Fridman 与四位 Cursor 团队成员进行了一场技术对谈,揭示了这个团队在做的以及未来要做的探索。其中有这么一段对话:
问:最近有传言说,GitHub Copilot 可能会以某种方式整合 o1,有一些评论说:「这是否意味着 Cursor 完了?」你们怎么看呢?
答:是时候关停 Cursor 了。没错 Cursor 是该倒闭了。
问:所以你们真的觉得是时候把 Cursor 关了吗?
答:我认为这个领域与过去 2010 年左右的软件领域有些不同,因为这里的上限真的非常高。我认为再等 3-4 年,那时最好的 AI 编程产品可能比现在的要实用得多。
当然,你可以谈论护城河、品牌、优势等等,但如果你在产品创新上止步不前,就会被甩在后面。这对初创公司和想进入这个市场的人来说都是好消息,因为只要你能打造出更好的产品,就有机会超越那些拥有大量用户的竞争者。因此,我认为接下来的几年关键在于打造最好的产品和系统,不仅包括模型引擎的改进,还包括优化编辑体验。
没错,我认为 Cursor 相比其他产品的额外价值不仅仅在于能快速整合 o1 这样的新模型。更重要的是,Cursor 的定制模型在各个方面提供了深入支持,这些模型可能在你不知情的情况下默默发挥作用,每个功能都为用户体验进行了精心设计。(@机器之心)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻