DeepL Voice:会议、对话实时语音翻译工具;吴佳俊团队:场景语言,智能补全文本到 3D 的场景理解

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、一句话爆改三维场景!斯坦福吴佳俊团队新作:场景语言,智能补全文本到 3D 的场景理解

 

 

 

斯坦福的研究团队提出了一个创新性解决方案:就像人类使用自然语言(natural language)进行交流,三维场景的构建需要场景语言(Scene Language)。

 

这个新语言不仅能让 AI 理解我们的需求,更让它能够细致地将人类的描述转化为三维世界的场景。同时,它还具备编辑功能,一句简单指令就能改变场景中的元素!物的位置、风格,现在都可以随意调整。

 

比如,输入 「初始状态的国际象棋盘」,模型可以自动识别并生成如下特征:

 

  • 64 个黑白相间的格子

  • 按规则排列的 32 个棋子

  • 每个棋子的独特造型

 

最终生成的 3D 场景完美还原了这些细节。

 

这个方法支持多种渲染方式,能适应不同的应用场景,更具吸引力的是其编辑能力:只需一句指令,就能调整场景中的元素。

 

Scene Language 支持图片输入,还能生成动态场景,让 3D 世界生动起来。

 

Scene Language 的核心在于三大组件的融合:

 

  • 程序语言(program):用于精确描述场景结构,包括物体间的重复、层次关系;

  • 自然语言(word):定义场景中的物体类别,提供语义层面的信息;

  • 神经网络表征(embedding):捕捉物体的内在视觉细节。

 

这种组合就像给 AI 配备了一套完整的 「建筑工具」,既能整体规划,又能雕琢细节。

 

与现有技术相比,Scene Language 展现出显著优势:

 

用户偏好测试中获得 85.65% 的偏好,相比现有方法提高了近 7 倍;在物体数量控制方面,测试集中的准确率达到 100%,而现有方法只有 11%。(@机器之心)

 

2、字节有望在 Sora 正式发布前上线视频生成模型

 

11 月 14 日,界面新闻从多个知情人士处获悉,字节跳动视频生成模型 PixelDance 将很快在即梦 AI 上线,面向公众开放使用,具体的上线时间将会早于 Sora 正式发布的时间。

 

Runway 联合创始人曾在 11 月 9 日称,OpenAI 计划在大约两周内发布 Sora。而 OpenAI 也公布了一条联合伦敦艺术家 Jon Uriarte 创作的短片,似乎是在为 Sora 的正式发布预热。这意味着,PixelDance 很可能会在最近几天内发布。

 

字节跳动在大模型领域一直动作频频。9 月 24 日,该公司一口气发布了豆包视频生成 PixelDance、豆包视频生成 Seaweed 两款大模型,并通过即梦 AI 和火山引擎面向创作者和企业客户小范围邀测。据知情人士透露,PixelDance 除了即将在即梦 AI 上线之外,还将于近期在豆包开启内测。(@极客公园)

 

3、DeepL 上线语音翻译工具 DeepL Voice:会议、对话实时多语言交流

 

DeepL 作为全球语言人工智能的领导者,近日推出了全新的实时语音翻译工具 ——DeepL Voice,旨在促进不同语言之间的无缝沟通。

 

DeepL Voice 是该公司首款专注于语音翻译的产品,超越了其著名的文本翻译服务,能够实时翻译,实现面对面或虚拟场景下的多语言互动。

 

该工具支持多种语言,包括英语、德语、日语、韩语、法语、西班牙语等,并提供 DeepL 翻译支持的所有 33 种语言的字幕。借助这些功能,DeepL Voice 旨在通过消除经常阻碍全球业务互动的语言障碍来提高生产力和包容性。

 

DeepL Voice 分为两个专用模型 —— 会议语音(Voice for Meetings)和对话语音(Voice for Conversations)。

 

在虚拟会议中,参与者可以使用自己熟悉的语言进行交流,同时其他人会实时看到翻译后的字幕。此功能旨在提升全球团队的沟通效率,让所有与会者无论语言能力如何,都能充分理解和参与。

 

在面对面交流中,对话语音能够在移动设备上实时翻译,适用于客户服务和一线工作人员。该工具有助于消除语言障碍,提升客户互动的质量和员工的工作效率。

 

为了应对实时翻译的技术挑战,DeepL 的工程师们经过多年数据和人工智能的积累,解决了包括不完整输入、发音差异和延迟等问题。DeepL 的首席执行官贾雷克・库蒂洛夫斯基(Jarek Kutylowski)表示,实时语音翻译的复杂性需要建立在深入的 AI 和语言学知识之上,确保企业能够在全球范围内高效沟通。(@AIbase 基地)

 

4、OpenAI CEO 辟谣 AI 发展「撞墙」论

 

昨日下午,OpenAI CEO Sam Altman 在 X 平台辟谣 AI 发展「撞墙」论:there is no wall 。

 

这一则辟谣源自近日有多家媒体报道称,OpenAI、Anthropic 等多家大模型公司下一代前沿模型训练表现不佳,这也导致 Scaling Laws 疑似「撞墙」的消息不胫而走。

 

此前,OpenAI 前首席科学家 Ilya Sutskever 在接受路透社采访时表示,「通过扩大预训练阶段——即使用大量未经标注的数据来训练 AI 模型,使其理解语言模式和结构——所取得的成果已经停滞不前。」

 

图灵奖得主 Yann Lecun、Ilya、Anthropic 创始人 Dario Amodei 也就此事纷纷展开唇枪舌战。争论的核心在于,随着模型规模的不断扩大,其性能提升是否会遇到天花板。

 

作为补充,在这场辩论的背景下,彭博社在近期也披露了一条引人注目的消息。OpenAI 计划在明年一月份推出一款名为「Operator」的 AI Agent(智能体),这个 Agent 能够使用计算机代替用户执行任务,如编写代码或预订旅行。( @APPSO)

 

5、讯飞星火多模态交互大模型上线,数字人、语音、视觉支持一键调用

 

「讯飞开放平台」公众号昨日(11 月 14 日)傍晚宣布,讯飞星火多模态交互大模型正式上线,其实现从语音交互拓展到音视频流实时多模交互,新增「多模态、超拟人和个性化」能力,实现语音、视觉、数字人交互三合一,支持一键调用。

 

据介绍,讯飞星火多模态交互大模型首发超拟人数字人技术,数字人躯干和四肢动作能够精准匹配语音内容,快速生成表情和动作,令 AI「栩栩如生」。通过统一文本、语音和表情,能够实现跨模态的语义一致性,从而使大模型情感表达真实连贯。

 

其支持超拟人极速交互,采用统一神经网络直接实现语音到语音的端到端建模,响应更快速、流畅,可敏锐感知情绪变化,也可根据指令自由变换声音的节奏、大小和人设。

 

其支持多模态视觉交互,能够「听懂世界」「认清万物」,更全面感知具体背景场景、物流状态等信息,对任务的理解更加精准,并通过语音、手势、行为、情绪等进行综合判断,作出合适的回复。

 

据此前报道,用户可与数字人进行语音、视频通话,数字人可实现与用户的自然语音对话,人物表情等也能够匹配说话的语句。星火超拟人数字人还支持多模态交互,可让数字人识别摄像头中的内容,比如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的品类等。(@IT 之家)

 

6、宇树科技开源机器人操作数据集

 

宇树科技日前宣布开源其明星产品 G1 机器人的操作数据集,这一举措在业内引发广泛关注。该数据集涵盖了数据采集方法、学习算法、训练数据以及相关模型,为机器人研究领域注入了新的活力。

 

值得注意的是,宇树选择基于知名的 LeRobot 开源框架进行训练和测试。这一决策获得了 Hugging Face CEO 的积极响应,他表示这充分体现了开源技术在机器人领域的重要性与日俱增。

 

目前,该数据集已收录五类基础操作能力,包括拧瓶盖倒水、堆叠三色积木、摄像头装盒、物品收纳存储,以及双臂抓取定向放置等场景。在数据采集环节,宇树创新性地运用了苹果 Vision Pro 进行 G1 的遥操作控制,相关代码仓库已获得超过 400 个星标认可。

 

从技术细节来看,该数据集采用 640x480 分辨率的图像,并记录了机器人手臂和灵巧手的七维状态和动作数据。宇树不仅开源了遥操作控制的完整代码,还提供了详尽的硬件配置说明和安装指南,以及数据格式转换教程。

 

作为数据来源的 G1 机器人,是宇树科技今年 5 月推出的重磅产品,起售价 9.9 万元。这款机器人配备三指灵巧手,采用力位混合控制技术,能够胜任拧瓶盖、砸核桃和焊接等精细操作。其搭载的 Intel RealSense D435 和 LIVOX-MID3603D 激光雷达,赋予了其 360 度全方位感知能力。

 

到 8 月份,G1 已实现规模化量产。通过深度强化学习和仿真训练,G1 的功能持续升级,不仅能够完成单腿跳跃,还能实现 360 度转身等高难度动作,展现出强劲的技术实力。(@AIbase 基地)

02有态度的观点

1、a16z 基金创始人透露,特朗普上台将彻底改变科技初创公司格局!

 

a16z 两位创始人 Marc Andreessen 和 Ben Horowitz 近日针对特朗普再次当选对科技和政策的影响表达了几个核心观点:

 

Marc 和 Ben 强调科技是美国未来的一级政策议题,直接影响国家竞争力和全球地位。他们认为,作为科技强国的美国,必须保持技术领先地位,否则可能在未来的全球竞争中落后,尤其是在与中国的科技竞争中。

 

他们对特朗普政府减少科技领域监管的计划表示支持,认为过度的监管会限制创新能力。特别是在 AI 和加密货币领域,过度的监管可能会扼杀企业发展。他们指出,特朗普政府有望减少繁琐的政策规定,为技术公司创造更有利的创新环境。

 

AI 发展的能源需求不断增加,Marc 和 Ben 强调需要清洁、廉价的能源供应来支持科技发展。特朗普政府对清洁核能等能源创新的支持有望帮助美国满足未来科技需求,确保在能源和科技上的双重领先地位。

 

此外,Ben 特别提到加密货币是为经济平等提供机会的重要工具,尤其对没有传统资产的群体而言。特朗普政府可能更宽松的加密货币政策为该行业提供了发展机会,有助于美国在金融科技领域保持竞争力。(@有新 Newin)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 素材来源官方媒体/网络新闻

posted @ 2024-11-15 21:53  声网  阅读(3)  评论(0编辑  收藏  举报