Swarm 框架登场:OpenAI 第 3 阶段「敲门砖」;马斯克的 Teslabot 实际有人远程操控丨 RTE 开发者日报
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App
智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ,该系列模型的能力已经上线「智谱清言」App。
据介绍,CogView3 是一个基于级联扩散的 text2img 模型,其包含如下三个阶段:
-
第一阶段: 利用标准扩散过程生成 512x512 低分辨率的图像。
-
第二阶段: 利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。
-
第三阶段: 将生成结果再次基于中继扩散迭代,生成 2048×2048 高分辨率的图像。
官方表示,在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。
CogView3-Plus 模型则在 CogView3(ECCV'24)的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。据介绍,其采用 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。(@IT 之家)
2、Swarm 框架登场:OpenAI 第 3 阶段「敲门砖」,让专业的事交给专业的 AI 智能体做
OpenAI 公司推出了 Swarm 框架,旨在解决开发者在多智能体系统编排中面临的复杂挑战。Swarm 框架通过简化智能体的协调、执行和测试过程,让开发者能够更高效地管理、互动多个 AI 智能体。
OpenAI 朝 AI 第 3 阶段迈进
根据 OpenAI 公布五级量表,最新推出的 o1 模型处于第二阶段,即所谓的「推理者」(reasoners),而开发 multi-agent 符合第三阶段的目标要求。
Swarm 框架
Swarm 是一个实验性框架,协调、执行和测试多智能体,让其变得轻量且高度可控,其目标是让开发者能够以简便高效的方式管理多个 AI 智能体之间的互动。Swarm 框架的核心在于智能体(agents)和交接(handoffs)两个基础抽象( primitive abstractions):
- 智能体: 每个智能体是特定指令与工具的组合,能够独立完成任务。- 交接: 智能体可以在执行过程中随时将任务或对话交接给其他智能体,确保流程的流畅性和模块化。
该框架保持整体协调的高效性的同时,简化了复杂的智能体互动。
随着多智能体系统在 AI 研究和应用中的重要性日益增加,Swarm 框架为开发者提供了一个易于使用的工具,降低了技术门槛,增加了可及性。无论是用于研究、产品开发还是教育,Swarm 框架都为探索协调的多智能体 AI 提供了一个激动人心的机会。(@IT 之家)
3、马斯克的 Teslabot 实际有人远程操控
特斯拉 CEO 埃隆·马斯克在数日前的自动驾驶出租车发布会活动上展示了人形机器人 TeslaBot(原称 Optimus),该机器人在现场跳舞、交谈、玩游戏和倒饮料,非常之吸引现场的嘉宾观众。
据一位在活动现场与特斯拉工程师交谈的人士透露,机器人的反应都是在幕后人员的控制下完成的,而马斯克并未向观众明确说明这一事实。这一行为被揭露后引发了观众的失望和对马斯克技术宣传的质疑。
一些投资者对这一场特斯拉的发布会评价为「令人失望」,他们认为发布会缺乏具体细节,而且自动驾驶出租车(CyberCab)和 人形机器人(Teslabot)要到 2026 年才开始生产,投资者对于的交付时间表也认为过于遥远,所以当日特斯拉股票在发布会后便下跌,但即使如此,马斯克的一系列创新产品仍然让人期待。(@爱范儿)
4、古尔曼:苹果智能眼镜和带摄像头的 AirPods 可能于 2027 年推出
据彭博社的马克・古尔曼称,苹果正在准备其它一些基于视觉的产品,预计会有智能眼镜,类似于 Meta 与 Ray-Ban 的合作产品,以及带有摄像头的 AirPods。推出时间不会早于 2027 年,并且存在可能最终不会推出的情况。
根据该报告,苹果希望通过将视觉智能技术引入更多产品,来挽回他们在 Apple Vision Pro 的视觉智能方面数十亿美元的部分研发投资。苹果已经在 iPhone 16 中引入了该技术,下一步是将其引入眼镜形态的产品中。
这款眼镜不会是带有显示屏的完整的 AR 眼镜,而是一款内置摄像头、扬声器和麦克风的智能眼镜,类似于 Meta 的 Ray Ban 眼镜。
此外,苹果公司仍在计划推出带有摄像头的 AirPods,这一消息此前已有报道。(@IT 之家)
5、优必选发布全新一代工业人形机器人 Walker S1,进入比亚迪等汽车工厂实训
优必选发布了全新一代工业人形机器人 Walker S1,已进入比亚迪工厂执行搬运任务实训,实现全球首次人形机器人与无人物流车、无人叉车、工业移动机器人和智能制造管理系统的协同作业。
优必选表示,已经与东风柳汽、吉利汽车、一汽红旗、一汽-大众青岛分公司、奥迪一汽、富士康、顺丰在内的多家企业合作。截至目前,Walker S 系列已成为全球进入最多车厂实训的人形机器人。
Walker S1 主要参数如下:
-
基本参数:身高 172cm、体重 76kg、负载行走 15kg
-
360° 多模态感知:集成化头部设计、双耳鱼眼相机、3D 立体视觉
-
一体化关节:创新型旋转驱动,最大扭矩 250N・m
-
仿人灵巧手:6 个阵列式触觉压力传感器、全栈式灵巧操作策略库(@IT 之家)
02 有态度的观点
1、Meta 首席人工智能科学家 LeCun:AI 威胁人类论完全是胡说八道
Meta 首席人工智能科学家 Yann LeCun 近日在接受《华尔街日报》采访时表示,对人工智能对人类生存的威胁的担忧是「彻头彻尾的胡说八道(complete B.S. ) 」。
LeCun 是人工智能领域的一位先驱,曾获得图灵奖,目前担任纽约大学教授和 Meta 高级研究员。他此前曾在社交媒体上表示,在担心控制超级智能 AI 之前,我们需要先弄清楚如何设计一个比家猫更聪明的系统。
LeCun 在接受《华尔街日报》采访时详细阐述了他的观点,在回答有关人工智能变得足够聪明以至于对人类构成威胁的问题时,他说:「你将不得不原谅我的法语,但那是完全的胡说八道。」
LeCun 认为,今天的语言大模型缺乏一些关键的「猫级」能力,如持久记忆、推理、规划和对物理世界的理解。他认为,这些模型只是证明了「你可以操纵语言,但并不聪明」,它们永远不会产生真正的通用人工智能(AGI)。
LeCun 并不完全否认实现 AGI 的可能性,但他表示,需要新的方法来实现。他指出,他领导的 Meta 基础人工智能研究团队正在研究如何消化真实世界的视频,这可能是一种有前景的方向。(@IT 之家)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻