ElevenLabs Voice Design:文本生成个性化语音;科学家用 AI 解读猪叫声背后情绪和压力丨RTE 开发者日报

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、简单文本即可创建个性化语音!ElevenLabs 推出全新 AI 语音生成工具 Voice Design

 

ElevenLabs 日前发布全新 AI 语音生成工具 Voice Design,通过简单的文本描述即可创建个性化语音,开创了 AI 配音领域的新纪元。

 

这款工具最大的特点是其直观的文本提示功能。用户只需描述所需声音的特征,如「温暖友好的中年女性声音,带着轻微英国口音」,系统便能快速生成符合要求的语音。

 

Voice Design 支持调节多个语音参数,包括年龄、性别、口音、语调和音高等,确保生成的声音精确匹配用户需求。

 

除了模拟真实人声,Voice Design 还突破性地支持创作角色化语音。无论是精灵的空灵之音,还是机器人的金属音效,系统都能准确捕捉并还原这些虚拟角色的声音特征。

 

用户可以反复调整参数,探索无限的创作可能,为游戏开发、有声内容制作等领域提供了强大的创意工具。

 

ElevenLabs 官方表示,该声音设计功能 API 将在 1 周内推出。(@AIbase 基地)

 

2、OpenAI ChatGPT 高级语音模式已登陆 Windows 和 Mac 平台,对话更自然

 

OpenAI 今日宣布,ChatGPT 的高级语音模式(Advanced Voice Mode,简称 AVM)现已登陆 Windows 和 Mac 平台。

 

AVM 基于 OpenAI 最先进的 GPT-4o 模型运行,允许用户像与真人对话一样与 ChatGPT 进行交流,包括打断、停顿等自然语言行为。OpenAI 表示,AVM 提供了更自然、实时的对话体验,能够实时感知和回应用户的情绪。

 

据了解,这一备受期待的功能在今年 7 月首次向测试用户开放,9 月底向付费订阅用户推出。OpenAI 在 10 月的一条推文中透露,免费用户也将有机会体验 AVM,而欧盟地区的 Plus 和 Free 用户则需要耐心等待。

 

就在一天前,OpenAI 还宣布了另一项新功能:ChatGPT 网页版聊天历史搜索。用户现在可以快速、轻松地调出聊天记录以供参考,或者从上次中断的地方继续聊天。(@IT 之家)

 

3、微软 Github 推出 Spark AI 工具:降低开发门槛,日常语言描述搞定整个应用

 

科技媒体 maginative 10 月 29 日发布博文,报道称微软旗下的代码托管平台 Github 推出 Spark,让用户仅通过日常语言描述,就能构建完善的应用功能。

 

用户借助 Spark 工具,并不需要编写代码以及深厚的编程专业知识,只需要详细解释希望开发的应用功能,从托管到数据存储,Spark 工具能自动处理所有复杂的技术细节。

 

在描述应用想法时,用户可以实时看到应用构建的过程。用户可以以对话的方式请求更改,系统会建议不同版本的修改方案,便于比较选择。

 

目前,Spark 处于技术预览阶段,GitHub 计划通过等待名单系统逐步扩大用户访问。这种谨慎的推出方式表明,GitHub 希望根据早期用户反馈不断优化技术。这一创新可能会彻底改变软件开发的方式,并将应用开发的门槛降低到数百万非程序员可以接触的水平。(@IT 之家)

 

4、谷歌 DeepMind 顶尖研究员 Julian Schrittwieser 加入 Anthropic,曾参与开发 AlphaGo 等

 

 

 

谷歌 DeepMind 顶尖研究员 Julian Schrittwieser(朱利安・施特维泽)10 月 29 日宣布加入 AI 公司 Anthropic。

 

施特维泽在谷歌 DeepMind 工作了十年,曾参与开发 AlphaGo、AlphaZero 和 MuZero 等革命性项目。

 

朱利安表示:「我很高兴宣布,从这周开始,我将加入 Anthropic!」他特别赞扬了 Anthropic 在人工智能领域的成果,尤其是 Claude 项目,他认为这个工具非常实用。此外,他也提到了 Anthropic 最近推出的 Artifact 和 Computer Use 等创新技术。

 

回顾在 DeepMind 的十年经历,施特维泽感叹:「我很幸运能参与谷歌 DeepMind 的这一段奇妙旅程…… 我参与了比我所想象的还要多的激动人心的项目。」从施特维泽的博客获悉,在 DeepMind 期间,他不仅参与了基础研究,比如 AlphaCode 和 AlphaTensor,还参与了最近的 Gemini 和 AlphaProof 等项目。(@IT 之家)

 

5、谷歌:公司超过 1/4 的新代码是由人工智能生成的

 

昨日,Google 母公司 Alphabet 发布了截至今年 9 月 30 日的第三季度财报。Alphabet 第三季度营收为 882.68 亿美元,同比上升了 15%;净利润 263.01 亿美元,同比增长 34%。

 

在财报电话会议上,Google CEO Sundar Pichai 透露,公司四分之一的新代码由 AI 生成,工程师会进行审查并使用。具体的部门业绩方面,和 AI 相关的 Google 云业务第三季度营收 113.53 亿美元,增长 35%;广告营收达 658.54 亿美元,增长 10%。(@APPSO)

 

6、养猪业新神器,AI 工具可解读猪叫声背后的情绪

 

路透社于 10 月 24 日发布博文,报道称欧洲科学家开发了一种能够解读猪叫声的人工智能(AI)算法,从而帮助猪农了解猪的情绪和压力状态。

 

根据共同领导该研究的哥本哈根大学行为生物学家埃洛迪・曼德尔-布里费尔的说法,该算法有可能提醒农民注意猪的负面情绪,从而改善它们的福祉。

 

该研究由来自丹麦、德国、瑞士、法国、挪威和捷克共和国的科学家共同进行,核心是通过分析数千个不同情境下的猪叫声,理解它们所表达的情感。

 

猪的不同叫声(如咕哝声、哼哼声和尖叫声)能够反映它们的情绪,短促的咕哝声(grunt)通常表示积极情绪;而长时间的咕哝声则可能表明不适;高频的尖叫声通常与压力相关,尤其在猪感到疼痛或被分开时。

 

研究团队希望这一算法未来能够帮助标记农场,指导消费者做出更明智的选择,一旦算法成熟,农民将能通过手机应用实时翻译猪的情感表达。(@IT 之家)

02有态度的观点

1、a16z 合伙人最新洞察:继续推动下一代模型,需要每个阶段增加 10 倍计算资源、10 倍电力和 10 倍数据

 

近日,a16z 合伙人 Martin Casado 围绕 AI 技术发展、投资趋势以及不同领域的实际应用和限制与资深媒体人展开了一场对谈,提出了几点核心观点:

 

Casado 认为 AI 技术的迭代速度前所未有,投资者需要不断质疑自己的假设,保持灵活性。这一轮技术周期比之前的互联网、云计算等周期变化更快,也更具颠覆性。

 

目前,AI 发展面临数据和算力的瓶颈。模型要继续提升,需要远超当前的计算资源和数据量,尤其是特定领域的专用数据。

 

虽然合成数据可以应用于规则明确的领域,但生成关于世界的见解仍然受限于现有的知识库。

 

他认为未来 AI 算法还将继续进化,逐步纳入规划和世界模型的概念,以应对特定任务和增强推理能力。(@有新 Newin)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 

素材来源官方媒体/网络新闻

posted @ 2024-10-31 14:37  声网  阅读(11)  评论(0编辑  收藏  举报