Google 类 Computer Use 项目：贾维斯计划；字节 PersonaTalk 视频配音框架能保持口型与风格同步

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、OpenAI 语音转写工具 Whisper 被曝存在重大缺陷：会凭空生成大段虚假内容

当地时间 27 日，据美联社报道，超过十位软件工程师、开发人员和学术研究人员称，OpenAI 的语音转写工具 Whisper 存在一个重大缺陷：有时会凭空生成大段甚至整句虚假内容。这些生成的文本可能涉及种族言论、暴力措辞，甚至杜撰的医疗建议。

专家们认为，这一问题尤其令人担忧，因为 Whisper 已被广泛应用于全球多个行业，包括用于翻译和转录访谈内容、生成常见消费科技文本及制作视频字幕。

更具风险的是，尽管 OpenAI 已提醒不应在「高风险领域」使用该工具，但一些医疗机构仍在匆忙采用基于 Whisper 的工具来记录医生与患者的咨询记录。

报道称，研究人员和工程师在工作中经常遇到 Whisper 的「幻觉」现象，问题的整体规模尚不清楚。例如，密歇根大学一位研究员在研究公共会议时发现，在尝试改进模型前，他所检查的十份音频转录中，八份含有虚构内容。

一位机器学习工程师透露，在最初分析的超过 100 小时 Whisper 转录中，他发现大约一半的内容存在「幻觉」现象。一位开发人员进一步指出，在他用 Whisper 生成的 26000 份转录中，几乎每一份都带有虚构内容。

即便是音质良好的简短音频样本，也未能幸免于这些问题。计算机科学家们的最新研究表明，他们审查的 13000 多段清晰音频片段中，有 187 段出现了「幻觉」现象。研究人员认为，这一趋势意味着，在数百万条录音中将可能出现数以万计的错误转录。OpenAI 的发言人表示，该公司持续研究如何减少幻觉，并且感谢研究者的发现，将会在模型更新中采纳反馈。（＠IT 之家）

2、Google 正在开发「贾维斯项目」，可将 Chrome 网页任务自动化

据 The Information 报道，Google 正在开发「贾维斯项目」，该项目可以帮助用户执行包括收集研究、购买产品或预订航班在内的任务。

报道指出，该项目将由未来推出的 Google Gemini 驱动，并且仅适用于 Chrome 浏览器，该项目预计最早将在 12 月亮相。

「贾维斯项目」旨在通过截取屏幕截图后解析内容，同时自动点击按钮或输入文本，从而帮助用户「自动化日常的网页任务」。

不过，目前该工具在执行不同操作时，会有几秒钟的间隔时间。(＠APPSO)

3、OpenAI 公布新型 AI 文生图方案「sCM」，号称效率是传统扩散模型 50 倍

OpenAI 上周公布了一款名为 sCM（Continuous-Time Consistency Model）的新型 AI 文生图方案。

与传统的扩散模型相比，sCM 仅需两个步骤即可生成高质量样本，号称能够将文生图效率提升约 50 倍，且生成的样本质量能与「业界较强的扩散模型」相比较，为 AI 文生图提供了新的方案。

目前业界通常使用扩散模型生成图片及音视频，但传统扩散模型的取样过程通常缓慢，通常需要数十到数百个逐步降噪的过程才能生成高质量样本（例如小伙伴们使用 SD「炼丹」绘图就需要等待特别长的降噪时间），这使得相应模型效率低下，不适合商业化应用。

虽然目前业界已出现一些技术以加快扩散模型的速度，但无非只是利用复杂训练过程「提纯」模型，或通过降低输出样本质量下降以提升效率。

据介绍，sCM 训练方法主要利用预训练扩散模型蒸馏出来的知识直接打造模型，号称能够在缩短取样时间的同时保持高质量样本生成。

研究人员使用 ImageNet 512x512 数据集，利用 sCM 方法训练模型，号称能够生成细节丰富且高质量的图像，展示其在高分辨率生成方面的能力。尽管 sCM 只有两个取样步骤，生成样本的质量仍接近业界「最佳的扩散模型」，号称「差异不到 10%」。（＠IT 之家）

4、PersonaTalk：字节跳动开发出可精准给视频进行 AI 配音的模型，能保持口型同步、说话风格完美匹配

它通过一个基于注意力机制的两阶段系统，在生成与音频同步的嘴部动作的同时，保持说话者独特的个性特征（如说话风格和面部细节）。其目标是解决传统配音技术难以同时确保口型同步和个性保留的挑战。

它能做到：

声音同步嘴型：当你给一个视频加上新的声音时，PersonaTalk 可以让人物的嘴巴动作和声音完全匹配，和新的语音说话口型嘴唇一样。

保留人物特点：在生成新视频时，它会尽量保留人物原本的说话方式、脸型、表情等细节，让视频看起来更加真实和自然。

适用于不同人物：它不需要大量的数据来单独训练特定的人物，可以适应不同的人物和场景。（＠小互 AI）

5、报道称字节跳动拟在欧洲设立 AI 研发中心

据 AI 科技评论独家报道，字节跳动准备在欧洲设立 AI 研发中心。有知情人士表示，字节跳动目前已经开始寻找欧洲的 LLM 和 AI 方面技术大牛，积极招揽人才。

在今年 6 月，就有消息指出，字节跳动计划投资约 100 亿林吉特（21.3 亿美元）在马来西亚建立 AI 中心。另外，字节跳动还打算额外投资 15 亿林吉特扩大其在马来西亚的数据中心设施。

而在 9 月初，也有媒体曾报道，字节跳动董事会加入一位欧洲新董事，即法国富商、法国互联网服务提供商和移动运营商伊利亚特电信集团的创始人和董事长泽维尔·尼尔，而这一举措也让字节跳动拓展欧洲市场的意图更为明显。( ＠APPSO)

02有态度的观点

1、OpenAI 首席产品官：未来 AI 将更加自主和异步性，完全不同的产品构建方式，以前无法实现的产品现在变得可能了

OpenAI CPO（首席产品官） Kevin Weil 与 Anyscale 联合创始人 Robert Nishihara 展开了一场对话。作为 OpenAI 的高管之一，Kevin 的对话涵盖了多个层面，从技术架构到产品策略，再到更广泛的社会影响。

Kevin Weil 深入讲解了 o1 模型在复杂问题推理中的应用，特别是在面对多维度的编程问题时表现出色。同时，他强调了「防御深度」概念，认为模型的安全性不仅体现在模型本身的设计上，也与具体的应用场景密切相关。

Kevin 强调了迭代部署的价值，即通过逐步扩大模型的使用范围，让其在真实世界中接受挑战和反馈，从而提升模型的安全性与实用性。这种开放、透明的方式体现在 OpenAI 对外发布的模型规范上，并通过全球社区的反馈不断优化。

他相信，随着模型的智能水平不断提升，开发者有巨大的机会利用 AI 来解决特定行业的挑战，特别是在专有数据和特定领域知识的应用上。（＠有新 Newin）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

posted @ 2024-10-28 19:09 RTE开发者社区阅读(269) 评论(0) 收藏举报

刷新页面返回顶部

Google 类 Computer Use 项目：贾维斯计划；字节 PersonaTalk 视频配音框架能保持口型与风格同步

01有话题的新闻

02有态度的观点

公告