上一页 1 2 3 4 5 6 7 8 9 ··· 151 下一页
摘要: 深度搜索Agent核心问题其实就有两个:怎么把复杂问题拆得合理,以及怎么判断搜索结果够不够用。近两年深度搜索Agent发展很快各家的实现思路也越来越成熟,围绕这两个问题业界逐渐沉淀出几种主流架构:从最基础的Planner-Only,到加入评估反馈的双模块设计,再到Sentient Labs提出的递归 阅读全文
posted @ 2026-01-11 21:19 deephub 阅读(12) 评论(0) 推荐(0)
摘要: 一个 AI 智能体在简单任务上跑得很顺,加了几个功能之后突然开始胡说八道、忽略指令、选错工具、丢失上下文。这就是所谓的"单体智能体墙":单个智能体从可用变成不可用的临界点。 Anthropic 的研究数据表示当智能体挂载超过 10-15 个工具后性能就会断崖式下跌。但企业级系统动辄需要上百个功能接口 阅读全文
posted @ 2026-01-10 21:31 deephub 阅读(7) 评论(0) 推荐(0)
摘要: 用LLM给LLM打分,这个看起来很聪明的做法正在让AI评估变得不可靠。KRAFTON AI的这个工作直指当前LLM评估体系的软肋:作为评判者的语言模型本身就带有系统性偏差,而这种偏差在Chatbot Arena等主流基准测试中可以达到30%左右。也就是说排行榜上那些令人兴奋的性能提升,有相当一部分可 阅读全文
posted @ 2026-01-09 22:40 deephub 阅读(17) 评论(0) 推荐(0)
摘要: NeRF(Neural Radiance Fields,神经辐射场)的核心思路是用一个全连接网络表示三维场景。输入是5D向量空间坐标(x, y, z)加上视角方向(θ, φ),输出则是该点的颜色和体积密度。训练的数据则是同一物体从不同角度拍摄的若干张照片。 通常情况下泛化能力是模型的追求目标,需要在 阅读全文
posted @ 2026-01-08 21:38 deephub 阅读(20) 评论(0) 推荐(0)
摘要: Transformer的"二次方注意力瓶颈"的问题是老生常谈了。这个瓶颈到底卡在哪实际工程里怎么绕过去?本文从一个具体问题出发,介绍Mosaic这套多轴注意力分片方案的设计思路。 https://avoid.overfit.cn/post/791e0f30540e4d289a43d01d383e8a 阅读全文
posted @ 2026-01-07 19:48 deephub 阅读(42) 评论(0) 推荐(0)
摘要: 标准 RAG 流水线有个根本性的毛病:检索到的文档一旦与用户意图对不上号,模型照样能面不改色地输出一堆看似合理的胡话,既没有反馈机制也谈不上什么纠错能力。 而Agentic RAG 的思路截然不同,它不急着从检索结果里硬挤答案,而是先判断一下拿回来的东西到底有没有用,如果没用则会重写查询再来一轮。这 阅读全文
posted @ 2026-01-06 21:44 deephub 阅读(3) 评论(0) 推荐(0)
摘要: Agentic RAG 是当前 LLM 应用中一个非常火热的方向。与传统 RAG 不同它让模型在推理过程中自主决定要不要检索、什么时候检索。这样就相当于给模型一套工具让它自己判断该用哪个。 目前训练 Agentic RAG 的主流做法是结果监督强化学习:只在推理结束后给一个标量奖励:对就是对、错就是 阅读全文
posted @ 2026-01-05 20:53 deephub 阅读(13) 评论(0) 推荐(0)
摘要: JAX跑得快的技巧其实很简单:通过组合变换让XLA能看到大块连续的计算,比如说批处理、融合、分片,让每一步在单设备或多设备同步时都像一个干净的kernel。 我们今天就来总结7个能够提高运行速度的JAX变换组合 https://avoid.overfit.cn/post/84e4e28e3ca847 阅读全文
posted @ 2026-01-04 20:44 deephub 阅读(38) 评论(0) 推荐(0)
摘要: Google发布的这个Code Wiki项目可以在代码仓库之上构建动态知识层的工具,或者说可以"自动生成文档"。 第一层是结构解析:Code Wiki使用Tree-sitter对代码进行语法树分析,将源码拆解成类、函数、方法、导入语句和依赖项。Tree-sitter是一个增量解析库支持多种编程语言, 阅读全文
posted @ 2026-01-03 22:07 deephub 阅读(44) 评论(0) 推荐(0)
摘要: Scaling Laws 已经成为深度学习领域的共识:更大的模型配合更多数据效果往往更好。但当参数量攀升至百亿乃至千亿级别时一个棘手的问题是:训练不稳定性。 现代大语言模型动辄堆叠数十甚至上百层,残差连接、跳跃连接、跨层路由机制层出不穷。这些架构设计背后的逻辑就是为了改善梯度流、加快收敛、提升参数利 阅读全文
posted @ 2026-01-02 22:27 deephub 阅读(43) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 ··· 151 下一页