ChatGPT 开启「眼睛」,实时摄像头对话来了;昆仑万维推出实时语音助手 Skyo丨 RTE 开发者日报

 

 

图片

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、360 将发布新一代 AI 搜索 周鸿祎:n.cn 域名花了约一个亿

 

 

图片

 

360 公司创始人周鸿祎近日宣布,公司计划在本月推出一款全新的搜索产品,该产品将进一步扩展 360 在人工智能应用领域的版图。

 

周鸿祎指出,360AI 搜索作为国内最大的原生人工智能应用之一,已经证明了搜索是用户接触和使用 AI 技术的直接和简单方式。基于这一成功经验,360 团队致力于在现有基础上进行创新,打造一个更易于普及和使用的 AI 工具。

 

目前,新产品的准备工作已接近完成,唯一待定的是产品名称。周鸿祎表示,考虑到消费者对 360 的第一印象是安全,因此他希望新产品的名称能够体现 AI 的概念和含义。此外,他还特别提出,新名字必须以字母 N 开头,这是因为他几年前购买了域名 n.cn,并希望在新产品中利用这一域名。

 

周鸿祎还向公众发出邀请,征集新产品的名称。他表示,一旦采纳,将邀请命名者参加发布会并担任重要角色。(@AIbase 基地)

 

2、引进零一万物联创,「闪极科技」完成数千万元 A 轮融资

 

「闪极科技」完成数千万元人民币 A 轮融资,由光远投资领投,未来光锥前沿科技基金、边缘 AI 芯片公司云天励飞跟投,跃为资本担任独家财务顾问。

 

融资资金将主要用于新品「闪极 AI 拍摄眼镜」的市场拓展、AI 技术研发及人才梯队建设。

 

据了解,这款新品将于 12 月 19 日发布,卖点是持久续航、高清拍摄、影音质感及 AI 能力。

 

「闪极科技」成立于 2020 年,进军 AI 眼镜行业之前,该公司的主要业务是高端充储能及摄影周边器材领域。2023 年,「闪极科技」进军 AI 硬件领域,计划利用一年时间研发并推出一款 AI 眼镜。

 

在 AI 投入方面,「闪极科技」在不久前引入了前谷歌大脑首位研究软件工程师、前字节跳动 AI 平台负责人、「零一万物」联合创始人潘欣出任公司合伙人,负责 AI 相关技术研发。

 

「闪极科技」合伙人潘欣表示,全新的 AI 生态,正需要全新的硬件模式来承载。AI 具备的典型能力是多模态理解能力、自主决策能力,相比于过往的手机、PC,AI 眼镜是更适合 AI 落地的方向——眼镜品类不仅在全球有了小几十亿的佩戴群体,更是唯一具备第一视角信息、能近距离获得用户声音信息的设备,更能帮助用户记录、记忆信息。

 

近期,AI 眼镜成为 AI 硬件行业的焦点,不少 AR 眼镜公司、百度在内的大厂都在发布对标 Meta Ray-ban 的新产品,不过基本集中在明年 Q2、Q3 量产。据此前报道,小米、三星的 AI 眼镜产品将在明年发布,OPPO、vivo、华为、腾讯、字节也都在密集调研这一领域。(@智能涌现)

 

3、推理模型 DeepSeek-R1-Lite 预览版上线,号称媲美 OpenAI o1-preview

 

 

图片

 

DeepSeek 昨日(11 月 20 日)宣布,全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线。

 

官方表示,DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 OpenAI o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。

 

DeepSeek-R1-Lite 预览版模型在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等评测中,超越了 GPT-4o 等知名模型。

 

据了解,DeepSeek-R1-Lite 目前仍处于迭代开发阶段,仅支持网页使用,暂不支持 API 调用。DeepSeek-R1-Lite 所使用的也是一个较小的基座模型,无法完全释放长思维链的潜力。

 

官方称正式版 DeepSeek-R1 模型将完全开源,并公开技术报告和部署 API 服务。(@IT 之家)

02有亮点的产品

1、昆仑万维推出「天工大模型 4.0」4o 版及实时语音助手 Skyo,号称可克服大模型幻觉

 

昨日(11 月 20 日),昆仑万维宣布推出「天工大模型 4.0」4o 版(Skywork 4o)以及新产品「实时语音对话助手 Skyo」。

 

据官方介绍,Skyo 作为一个智能语音互动产品,具备快速响应、多语言对话能力,它能够主动发起对话、实时打断,能够克服大模型的「幻觉」问题,在对话中回复真实内容。同时,Skyo 具备情感化反应和个性化声音定制功能。

 

「天工大模型 4.0」4o 版具备如下特征:高效响应速度,支持实时打断,情感理解与个性化记忆,可定制的声音风格,有能力支持多语言。

 

Skyo 则具备如下特征:1 秒内回复、聊天中可打断,主动交流,持续长对话,情感反应,质感音色,风格切换,强大的记忆功能,回复真实内容。此外,Skyo 将于 12 月份上线昆仑万维旗下天工 App。(@IT 之家)

 

2、ChatGPT 开启「眼睛」,实时摄像头对话来了!

 

OpenAI 正在为 ChatGPT 的高级语音模式增加一项重磅新功能——「实时摄像头」,这意味着它很快就能实时看到并理解我们的周围环境了!

 

这个消息来自最新的 ChatGPT v1.2024.317 测试版本,代码中已经出现了相关的蛛丝马迹。

 

当 OpenAI 在 5 月份发布 GPT-4o 时,其演示就足以令人惊叹:通过实时摄像头,轻松识别出画面中的狗狗,还能记住狗狗的名字。不仅如此,它还能看到玩具球,并自然而然地建议一场抛接游戏!

 

这完全不是简单的物体识别,而是真正理解了场景和上下文。

 

就像你在和一个超级聪明的朋友视频聊天,他不仅能看到你周围的一切,还能给出恰到好处的互动建议。

 

一些幸运的用户已经体验到了这个功能的 alpha 版本。他们纷纷表示:这简直就像在和一个博学多才的朋友视频通话!

 

根据最新泄露的代码,这个功能将被正式命名为「Live camera」。使用方式出人意料的简单:

 

只需轻点摄像头图标,ChatGPT 就能立即「看到」并讨论你的周围环境。

 

不过 OpenAI 也特别注重安全性,在代码中明确加入了警告提示,表明不要依赖这个功能进行实时导航,也不要用它做出可能影响健康和安全的决定。

 

虽然 OpenAI 还没有公布具体的发布时间表,但从测试版的代码来看,这个功能即将进入 beta 测试阶段。

 

业内普遍预测,它很可能会优先向 ChatGPT Plus 的付费用户开放测试。( @AGI Hunt)

 

3、YouTube 推出视频问答功能 让视频内容秒变互动百科

 

YouTube 在其平台上推出了一项革命性的 AI 问答功能,让视频观看体验迈入全新的互动时代。这项专为 Premium 会员打造的新功能,正在彻底改变用户获取视频信息的方式。

 

只需轻点视频下方的「Ask」按钮,用户就能立即唤起 AI 助手,开启与视频内容的实时对话。无论是画面中出现的特定物品、背景音乐详情,还是视频中的任何细节信息,AI 助手都能快速给出准确答案。这项功能相当于为每个视频配备了一位全天候的智能解说员,让视频观看从单向接收转变为双向互动体验。

 

这一功能的推出意味着 YouTube 不再仅仅是一个视频播放平台,而是转变成了一个智能化的视频互动平台。用户可以随时暂停视频,向 AI 助手提问,获取即时反馈,大大提升了视频内容的可理解性和可访问性。

 

对创作者而言,这项功能也带来了新的机遇。观众能够更深入地了解视频内容,提高观看粘性,同时创作者也可以通过观众的提问了解受众关注点,优化未来的内容创作方向。(@AIbase 基地)

 

4、新开源 「人生搜索引擎」 Pensieve,可记录并回忆电脑屏幕内容

 

 

图片

 

近日,一款名为 Pensieve(冥想盆)的开源软件在 GitHub 热榜上引起了广泛关注。

 

这款软件的设计灵感来源于《哈利波特》中提取和回忆记忆的神奇工具,它能够自动记录用户在电脑上的所有活动,让你随时回忆起过去所见过的信息。用户只需输入相关关键词,Pensieve 就能快速找到相关记录,极大地方便了日常生活和工作。

 

Pensieve 的开发者表示,该软件具有隐私保护的特点,所有记录均保存在本地,用户完全控制自己的数据。

 

与市面上其他类似软件如收费的 Rewind 和微软的 Windows Recall 相比,Pensieve 提供了一个免费、即时可用的选择。用户在使用过程中只需通过简单的命令安装软件,并设置配置文件和数据库,即可轻松启动并使用。

 

该软件的核心功能包括自动记录屏幕内容、智能索引,以及提供方便的网页界面以检索历史记录。Pensieve 的设计特别关注隐私和安全性,所有数据都存储在用户本地,避免了数据传输到不可信的云服务器。同时,Pensieve 还支持多种语言模型,用户可以根据需要选择合适的嵌入模型进行使用。

 

在性能方面,Pensieve 每月生成的截图约占 8GB 的存储空间,SQLite 数据库大小则依赖于截图数量。此外,该软件在设计时考虑了硬件设备的功耗,并采取了一系列优化措施,确保不会影响用户的正常使用。

 

Pensieve 不仅功能强大,而且安装过程简单,适合各类用户。开发者还提供了详细的食用指南,帮助用户选择合适的模型和使用 Ollama 进行视觉搜索。(@AIbase 基地)

03有态度的观点

1、马斯克:AGI 最晚 2026 年实现

 

在最近一次采访中,埃隆·马斯克分享了他对人工智能和未来技术的一系列预测和看法。

 

他重申了对人工通用智能(AGI)的乐观预期,认为最晚到 2026 年将实现 AGI,并强调了其潜在的风险可控性。

 

马斯克还透露了特斯拉擎天柱机器人的重大升级计划,包括多样化的外观选择和多功能用途,如接送孩子、教育和安全保护,预计未来人形机器人的数量将超过人类,达到 100 亿以上。

 

此外,他预测未来战争将主要涉及无人机,强调了人类与无人机战斗的不合理性。马斯克还明确表示,特斯拉不会涉足手机市场,而是专注于汽车和机器人领域,同时,他预测未来所有汽车都将实现自动驾驶。

 

总的来说,马斯克的预测描绘了一个由自动驾驶汽车和人形机器人主导的未来世界,其中人工智能技术将在各个领域发挥核心作用。(@APPSO)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

图片

 

素材来源官方媒体/网络新闻

posted @ 2024-11-21 18:34  声网  阅读(2)  评论(0编辑  收藏  举报