会员
周边
新闻
博问
闪存
众包
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
11
···
153
下一页
2026年1月17日
多智能体强化学习(MARL)核心概念与算法概览
摘要: 训练单个 RL 智能体的过程非常简单,那么我们现在换一个场景,同时训练五个智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。 这就是多智能体强化学习(Multi-Agent Reinforcement Learning,MARL),但是这样会很快变得混乱。 什么是多智能体强化学习 MA
阅读全文
posted @ 2026-01-17 22:26 deephub
阅读(24)
评论(0)
推荐(0)
2026年1月16日
LLM多跳推理深度测试:四项指标精准定位模型的推理极限
摘要: LM 在多步骤问题求解上的表现已经相当不错了,但复杂逻辑链的处理仍然是个难题。模型的推理深度直接决定了它在多跳推理任务中能走多远、有多可靠。 本文介绍推理深度的核心机制,然后用四项压力测试指标对 Llama 3.2 和 Qwen 3 做个横向对比看看它们的逻辑极限在哪里。 什么是多跳推理 多跳问题要
阅读全文
posted @ 2026-01-16 20:42 deephub
阅读(12)
评论(0)
推荐(0)
2026年1月15日
Agentic Memory 实践:用 agents.md 实现 LLM 持续学习
摘要: LLM 能自动化研究、编程等各类任务,但有个恼人的问题:完成一个任务后,下次交互又得从零开始。每次都要重复告诉它代码格式怎么写、任务按什么偏好执行,时间就这么浪费掉了。 agents.md 文件可以让 LLM 把可复用的信息存到单独文件里学习你的习惯和模式。新任务开始时自动读取这个文件,冷启动问题没
阅读全文
posted @ 2026-01-15 22:49 deephub
阅读(15)
评论(0)
推荐(0)
2026年1月14日
CALM模型的黑盒采样:用碰撞方法实现温度调节
摘要: 温度参数大概是LLM推理中最容易理解的控制手段了。把温度调低,输出就更确定、更收敛;调高,模型就更发散、更有"创意"。问题是这套机制依赖于显式的logits——而连续自回归语言模型(CALM)恰恰没有这东西。 我们在前面CALM框架的介绍中看到,CALM基本上把架构都做过修改,但是唯独温度采样这块一
阅读全文
posted @ 2026-01-14 21:20 deephub
阅读(8)
评论(0)
推荐(0)
2026年1月13日
RAG检索模型选型:Bi-Encoder、Cross-Encoder、SPLADE与ColBERT的技术对比
摘要: 构建RAG系统时,Bi-Encoder、Cross-Encoder、SPLADE、ColBERT这几个术语几乎都会在一起出现,表面上看它们都在做文本相似度计算但为什么需要这么多不同的模型?是一个不够用吗? 本文将拆解每种模型的工作机制、适用边界,以及如何在实际系统中组合使用。而核心问题是:高召回和高
阅读全文
posted @ 2026-01-13 21:20 deephub
阅读(10)
评论(0)
推荐(0)
2026年1月12日
构建自己的AI编程助手:基于RAG的上下文感知实现方案
摘要: 很多人觉得做个AI助手就是调调OpenAI的接口,其实这样智能做出一个通用聊天机器人。 而代码助手需要专门为代码设计的上下文感知的RAG(Retrieval-Augmented Generation)管道,这是因为代码跟普通文本不一样,结构严格,而且不能随便按字符随便进行分割。 一般的代码助手分四块
阅读全文
posted @ 2026-01-12 21:38 deephub
阅读(12)
评论(0)
推荐(0)
2026年1月11日
深度研究Agent架构解析:4种Agent架构介绍及实用Prompt模板
摘要: 深度搜索Agent核心问题其实就有两个:怎么把复杂问题拆得合理,以及怎么判断搜索结果够不够用。近两年深度搜索Agent发展很快各家的实现思路也越来越成熟,围绕这两个问题业界逐渐沉淀出几种主流架构:从最基础的Planner-Only,到加入评估反馈的双模块设计,再到Sentient Labs提出的递归
阅读全文
posted @ 2026-01-11 21:19 deephub
阅读(14)
评论(0)
推荐(0)
2026年1月10日
别再往一个智能体里塞功能了:6种多智能体模式技术解析与选型指南
摘要: 一个 AI 智能体在简单任务上跑得很顺,加了几个功能之后突然开始胡说八道、忽略指令、选错工具、丢失上下文。这就是所谓的"单体智能体墙":单个智能体从可用变成不可用的临界点。 Anthropic 的研究数据表示当智能体挂载超过 10-15 个工具后性能就会断崖式下跌。但企业级系统动辄需要上百个功能接口
阅读全文
posted @ 2026-01-10 21:31 deephub
阅读(8)
评论(0)
推荐(0)
2026年1月9日
LLM-as-a-judge有30%评测偏差?这篇论文给出修复方案
摘要: 用LLM给LLM打分,这个看起来很聪明的做法正在让AI评估变得不可靠。KRAFTON AI的这个工作直指当前LLM评估体系的软肋:作为评判者的语言模型本身就带有系统性偏差,而这种偏差在Chatbot Arena等主流基准测试中可以达到30%左右。也就是说排行榜上那些令人兴奋的性能提升,有相当一部分可
阅读全文
posted @ 2026-01-09 22:40 deephub
阅读(21)
评论(0)
推荐(0)
2026年1月8日
神经辐射场NeRF入门:3D视图合成的原理与PyTorch代码实现
摘要: NeRF(Neural Radiance Fields,神经辐射场)的核心思路是用一个全连接网络表示三维场景。输入是5D向量空间坐标(x, y, z)加上视角方向(θ, φ),输出则是该点的颜色和体积密度。训练的数据则是同一物体从不同角度拍摄的若干张照片。 通常情况下泛化能力是模型的追求目标,需要在
阅读全文
posted @ 2026-01-08 21:38 deephub
阅读(21)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
153
下一页
公告