刷新
langchain 快速入门(四):搭建强大的AI Agent

简介 AI Agent 不仅仅是一个能聊天的机器人(如普通的 ChatGPT),而是一个能够感知环境、进行推理、自主决策并调用工具来完成特定任务的智能系统,更够完成更为复杂的AI场景需求。 AI Agent 功能 根据查阅的资料,agent的功能点如下: Agent = LLM + 规划 + 记忆 ...

langchain 快速入门(三):搭建RAG知识库

简介 LLM大模型一般训练的数据都是滞后的,这是就需要用到RAG知识库,RAG知识库可以降低大模型在输出答案时的幻觉,也能够让大模型知识拓展。 知识库架构知识 检索流程图 用户输入 (User Query) | v + + | 提示词 (Prompt) | + + | | (1) 转化为向量 (Em ...

评估,才是微调里最反直觉的部分

博主头像 微调跑通≠成功!训练是确定性工程,评估才是核心认知挑战:loss不反映真实效果,人工评估难但不可替代。关键在明确定义“何为更好”,用固定对照集+对比输出持续校准目标,让评估成为理解模型行为的迭代过程。 ...

钉钉A1与飞书AI录音豆

博主头像 钉钉A1与飞书AI录音豆的全面对比分析表。从整体定位来看,两款产品分别深度绑定各自办公生态,面向职场会议场景,但在设计理念和功能侧重上有明显差异:核心差异总结对比维度钉钉A1飞书AI录音豆设计哲学性能优先:强调专业级录音质量和大容量存储便携优先:极致轻薄,无感佩戴,快速响应拾音能力6麦阵列+骨传导, ...

为什么 loss 几乎没用:微调里最容易让人“自嗨”的指标

博主头像 loss 在微调里不是没用,而是作用范围被严重高估了。它能告诉你“训练有没有在跑”,却几乎无法告诉你“模型有没有变成你想要的样子”。如果你把 loss 当成主要决策依据,那你很可能会在一条看起来很平滑的曲线上,慢慢把模型带偏。真正成熟的微调过程,永远是:loss 作为底线保障,输出评估作为核心依据 ...

你以为 PPO 很高级,其实它更像个“微调旋钮”

博主头像 为什么 PPO 在真实业务里越来越重要 如果你是从论文或者课程里接触 PPO 的,那大概率会有一种“这东西看起来很厉害”的感觉。策略梯度、clip、KL 约束、reward model,一整套体系下来,很容易让人产生错觉:只要把 PPO 跑起来,大模型就能被“精细打磨”。 但真正进到业务里,你会发现 ...

向量数据库技术内核:从存储到检索,拆解其高效运作的秘密

博主头像 向量数据库技术内核:从存储到检索,拆解其高效运作的秘密 写在前面:我也是“被向量数据库名词轰炸”过的人 说实话,我第一次接触向量数据库的时候,是有点抗拒的。 那会儿各种文章都在说: 向量数据库是 AI 时代的“新型基础设施” 没有向量数据库,大模型就跑不起来 它彻底改变了传统数据库的范式 结果我真正 ...

从零开始:PPO 微调大模型实战(基于 PyTorch)

博主头像 从零开始:PPO 微调大模型实战(基于 PyTorch) PPO 真正难的,不是算法本身 如果你已经看过一些 PPO 的原理文章,大概率会有过这种感觉: 好像每个字都认识,但真让我自己写代码,脑子还是一片空白。 这其实挺正常的。 至少我第一次准备动手写 PPO 的时候,也是这种状态。 问题不在你,而 ...

模型推理框架——vllm原理及整体框架

博主头像 Page Attention是优化KV-cache内存管理的方法,可解决预留浪费、内部及外部内存碎片化问题,通过将KV-cache划分为固定大小Block,利用Block Table维护逻辑与物理映射,有效管理非连续内存;同时处理Softmax计算中的数值溢出与全局信息问题。vllm框架支持离线与在... ...

10 万文档 RAG 落地实战:从 Demo 到生产,我踩过的所有坑

博主头像 但当你真的把 RAG 从 Demo 推到生产,会发现三个问题几乎一定会出现: 文档一多,检索明显变慢 明明文档里有答案,模型却“搜不到” 本地 + 向量库 + 模型 + 服务,部署复杂度飙升 这篇文章不会再重复“RAG 是什么”这种内容,而是围绕一个真实企业级目标展开: 在 10 万级文档规模下... ...

大模型微调评测入门:看懂这些指标,才知道模型好不好

博主头像 大模型微调评测入门:看懂这些指标,才知道模型好不好 从“瞎评”到“精准评”:大模型微调核心评测指标全拆解 大家好,我是七七!最近后台收到很多粉丝的共性提问:“我用LoRA微调了Llama 2 7B模型做情感分析,怎么判断它好不好用?”“微调后的文案生成模型,凭感觉比原版好,但是怎么证明?” 这其实戳 ...

民用卡 vs 专业卡 vs 云 GPU:大模型微调该选哪种?

博主头像 大模型微调的GPU选型,核心是“匹配场景+平衡成本”——个人追求性价比,团队兼顾稳定性,企业看重规模化。今天这篇文章,我就从三类GPU的核心差异、适配场景、实操选型三个维度,用大白话讲透选择逻辑,附实测数据和选型步骤,帮你不管是个人入门还是企业落地,都能选到最适合的GPU。 ...

大模型成本刺客退散!1/3算力跑出同等效果的秘诀

博主头像 不管是16G显卡的个人开发者,还是预算有限的小团队、追求ROI的企业,算力成本控制都是大模型落地的核心必修课。今天这篇文章,我就从微调、推理两个核心环节,拆解成本控制的底层逻辑和实操技巧,附16G显卡可直接套用的代码,帮你在不牺牲效果的前提下,把算力成本砍到最低。 ...

大模型从“瞎聊”到“干活”:指令微调核心逻辑全拆解

博主头像 大模型从“瞎聊”到“干活”:指令微调核心逻辑全拆解 指令微调破局,让大模型从 “瞎聊” 变 “能干” 大家好,我是七七!刚入门大模型时,我总被一个问题困扰:明明Llama 2、Qwen这些模型能聊天说地,可一让它干具体活就掉链子——让它写电商文案,通篇空话套话;让它整理会议纪要,逻辑混乱漏重点;让它 ...

软件工程Agent在工程依赖版本升级探索

博主头像 背景与动机 现代软件项目广泛依赖开源库以避免重复开发,但库版本更新常引入破坏性变更,导致代码兼容性问题。手动适配这些更新需消耗大量开发者时间,且大型代码库中开发者易忽视更新警告或锁定旧版本,长期阻碍功能迭代、性能优化与安全修复。现有自动化方案未被广泛采用,而 LLM 在代码生成、程序修复等领域已展现 ...

告别盲目试错!大模型微调核心参数的“油门、档位与里程

博主头像 告别盲目试错!大模型微调核心参数的“油门、档位与里程 (一)引言:参数没调对,微调全白费 大家好,我是七七!刚入门大模型微调时,我踩过最致命的坑就是“瞎调参数”——拿着7B模型,随便设个学习率、batch_size就跑训练,结果要么模型不收敛(损失一动不动),要么显存直接炸了,折腾两三天都没调出正经 ...

<123···29>