上一页 1 2 3 4 5 6 7 8 ··· 150 下一页
摘要: LLM幻觉问题至今没有根治方案。RAG能缓解一部分,但成本高、架构复杂,而且只适用于有外部知识源的场景。而对于模型"应该知道但经常搞错"的那类问题,比如历史事件的时间线、人物履历的细节,RAG帮不上什么忙。 Chain-of-Verification(CoVe)的思路是既然模型会在生成时犯错,那就让 阅读全文
posted @ 2026-01-19 22:23 deephub 阅读(10) 评论(0) 推荐(0)
摘要: 本文的目标是解释为什么现代LLM架构在前馈部分使用 SwiGLU 作为激活函数并且已经放弃了 ReLU 神经网络本质上是一系列矩阵乘法,如果我们堆叠线性层而不使用任何激活函数: 无论你堆叠多少层,它仍然只是一个线性变换,网络只能学习线性关系。 激活函数引入了非线性,使网络能够逼近复杂的非线性函数,这 阅读全文
posted @ 2026-01-18 20:25 deephub 阅读(3) 评论(0) 推荐(0)
摘要: 训练单个 RL 智能体的过程非常简单,那么我们现在换一个场景,同时训练五个智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。 这就是多智能体强化学习(Multi-Agent Reinforcement Learning,MARL),但是这样会很快变得混乱。 什么是多智能体强化学习 MA 阅读全文
posted @ 2026-01-17 22:26 deephub 阅读(20) 评论(0) 推荐(0)
摘要: LM 在多步骤问题求解上的表现已经相当不错了,但复杂逻辑链的处理仍然是个难题。模型的推理深度直接决定了它在多跳推理任务中能走多远、有多可靠。 本文介绍推理深度的核心机制,然后用四项压力测试指标对 Llama 3.2 和 Qwen 3 做个横向对比看看它们的逻辑极限在哪里。 什么是多跳推理 多跳问题要 阅读全文
posted @ 2026-01-16 20:42 deephub 阅读(8) 评论(0) 推荐(0)
摘要: LLM 能自动化研究、编程等各类任务,但有个恼人的问题:完成一个任务后,下次交互又得从零开始。每次都要重复告诉它代码格式怎么写、任务按什么偏好执行,时间就这么浪费掉了。 agents.md 文件可以让 LLM 把可复用的信息存到单独文件里学习你的习惯和模式。新任务开始时自动读取这个文件,冷启动问题没 阅读全文
posted @ 2026-01-15 22:49 deephub 阅读(9) 评论(0) 推荐(0)
摘要: 温度参数大概是LLM推理中最容易理解的控制手段了。把温度调低,输出就更确定、更收敛;调高,模型就更发散、更有"创意"。问题是这套机制依赖于显式的logits——而连续自回归语言模型(CALM)恰恰没有这东西。 我们在前面CALM框架的介绍中看到,CALM基本上把架构都做过修改,但是唯独温度采样这块一 阅读全文
posted @ 2026-01-14 21:20 deephub 阅读(5) 评论(0) 推荐(0)
摘要: 构建RAG系统时,Bi-Encoder、Cross-Encoder、SPLADE、ColBERT这几个术语几乎都会在一起出现,表面上看它们都在做文本相似度计算但为什么需要这么多不同的模型?是一个不够用吗? 本文将拆解每种模型的工作机制、适用边界,以及如何在实际系统中组合使用。而核心问题是:高召回和高 阅读全文
posted @ 2026-01-13 21:20 deephub 阅读(9) 评论(0) 推荐(0)
摘要: 很多人觉得做个AI助手就是调调OpenAI的接口,其实这样智能做出一个通用聊天机器人。 而代码助手需要专门为代码设计的上下文感知的RAG(Retrieval-Augmented Generation)管道,这是因为代码跟普通文本不一样,结构严格,而且不能随便按字符随便进行分割。 一般的代码助手分四块 阅读全文
posted @ 2026-01-12 21:38 deephub 阅读(7) 评论(0) 推荐(0)
摘要: 深度搜索Agent核心问题其实就有两个:怎么把复杂问题拆得合理,以及怎么判断搜索结果够不够用。近两年深度搜索Agent发展很快各家的实现思路也越来越成熟,围绕这两个问题业界逐渐沉淀出几种主流架构:从最基础的Planner-Only,到加入评估反馈的双模块设计,再到Sentient Labs提出的递归 阅读全文
posted @ 2026-01-11 21:19 deephub 阅读(12) 评论(0) 推荐(0)
摘要: 一个 AI 智能体在简单任务上跑得很顺,加了几个功能之后突然开始胡说八道、忽略指令、选错工具、丢失上下文。这就是所谓的"单体智能体墙":单个智能体从可用变成不可用的临界点。 Anthropic 的研究数据表示当智能体挂载超过 10-15 个工具后性能就会断崖式下跌。但企业级系统动辄需要上百个功能接口 阅读全文
posted @ 2026-01-10 21:31 deephub 阅读(7) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 150 下一页