大模型推理的“两步走”:Prefill 与 Decode 全流程科普详解

博主头像 大家有没有想过,当你和 ChatGPT、豆包、通义千问聊天时,输入问题后,模型不会一次性弹出完整回答,而是逐字逐句输出。这背后是大语言模型(LLM)推理生成内容的核心逻辑——推理全流程,核心分为两个截然不同的阶段:Prefill(预填充) 和 Decode(解码)。简单说,就是模型先“一口气读完、吃 ...

让 FastAPI Agent 思考不阻塞:手把手教你实现异步任务与后台处理方案

博主头像 LLM Agent 动辄几十秒的“思考”时间,足以让任何前端请求直接挂掉。作为一名被 API 超时折磨过的程序媛,我今天把 FastAPI 异步任务处理方案翻出来分享给你。从简单的后台任务到专业的任务队列,再到让用户不焦虑的 WebSocket 进度推送,全都是反反复复Debug出来的实战经验! ...

BMAD Story Automator 上手实录:把 5 个待办 Story 交给 AI 自主推进

博主头像 如果你已经习惯通过 BAMD 写代码,接下来真正耗时间的,往往不是“写”,而是“协调”。 一个 Epic 里有 5 个、10 个、20 个 Story。每个 Story 都要经历创建规格、开发实现、自动化测试、代码审查、回顾总结。真正让人疲惫的,不是某一步本身,而是你要不断盯着流程、切换会话、处理失 ...

自己用 ai 写了个链接 mysql 数据库的 mcp 工具

博主头像 @目录概要整体架构流程小结 概要 背景是这样的,之前用 ai 帮我生成 entity 都要我自己导出表结构,然后粘贴给它分析生成对应的 entity ,感觉好麻烦,而且还不能实时查看我的表和 entity 字段是否对应了, 问了 ai 建议我写个本地针对性的脚本或者用 mcp 工具,所以我就 vib ...

用ANTLR实现表达式词法和语法分析器

博主头像 易元平台因字段公式、验证条款等多场景需支持算术、逻辑、函数及括号表达式,原采用正则表达式实现词法分析,但存在解析效率低、难处理字符串转义以及负号等高级语法的问题。新方案引入ANTLR(选用3.1版本),通过定义LL(*)文法规则,自动生成C#词法和语法分析器,将表达式解析为Token树后映射为平台表... ...

Claude Code安装,接入阿里云百炼模型,蹭蹭免费额度

博主头像 开心一刻 今天和朋友去餐厅吃饭 我:你好,服务员,点菜 我们在看菜单的过程中,发现服务员时不时的摸屁股 我:有痔疮吗 服务员一脸疑惑的看向我:这个真没有,请您点菜单里有的菜,好吗 有痔疮吗 Claude Code 安装 在 IT 圈,Claude Code 早已如雷贯耳,作为一个软件开发者,如果还不 ...

JVM缓存对象对GC的影响与优化方案

博主头像 JVM缓存对象对GC的影响与优化方案 背景 当大量缓存对象长时间驻留堆内存时,JVM 的垃圾回收会被明显拖累。问题不在于对象多,而在于这些对象大多晋升到老年代,并持续引用年轻代对象——这直接破坏了分代 GC 的核心假设。 GC性能问题分析 YGC耗时增长的原因 分代垃圾回收基础原理 JVM 采用分代 ...

基于多模态视觉模型和图文向量模型的工业图像知识库研究与应用

博主头像 图片知识库面向的应用场景具有显著工业共性,包括航天及电子制造中的PCB板质量问题、工业生产中的漏油与渗漏、跑冒滴漏、烟雾火焰粉尘蒸汽异常、设备表面污渍锈蚀烧蚀腐蚀、缺件错装松动变形裂纹、外观一致性检查,以及历史故障案例召回等。对于这些场景,系统既可以服务于缺陷排查,也可以服务于知识沉淀和工单辅助检索... ...

当 AI 开始写代码,谁来保证它不会翻车?

博主头像 你让 AI Agent 写代码,它说"已完成,测试通过"——你信吗? 一个让人不安的现实 我们越来越依赖 AI Agent 来写代码了。Copilot、Cursor、Claude——它们在几分钟内就能生成完整的功能模块,测试用例也顺手写好。效率确实惊人。 但如果你仔细观察,会发现一些让人不安的现象: ...

深入剖析Java内存模型与volatile关键字

博主头像 缓存一致性问题 计算机在运行程序时,每条指令都是在CPU中执行的,在执行过程中会涉及到数据的读写。我们知道程序运行的数据是存储在主存中,这时就会有一个问题,读写主存中的数据没有 CPU 中执行指令的速度快,如果任何的交互都需要与主存打交道则会大大降低效率,所以就有了 CPU寄存器、各级缓存、主存构成 ...

使用Cursor实现管理系统的主界面布局的Vue3前端开发

博主头像 上一篇随笔《使用Cursor实现管理系统登录界面的快速开发》介绍了开发一个简单系统的登录界面,通过图片效果和简单的文字描述,就可以利用Cursor来快速生成相当不错的界面代码。本篇随笔继续探讨前端界面的快速生成,介绍使用图片效果快速构建一个系统的主布局界面代码。 ...

Oracle Deep Data Security (Deep Sec) 初体验

博主头像 关于数据安全,之前介绍过的 Oracle RAS 虽然强大,但规则定义还是太复杂,如今 Oracle 推出的 Deep Data Security (Deep Sec) 重新定义了AI智能体时代的数据安全玩法,不但继承了RAS的核心功能,而且其提供的直接使用声明式SQL来配置的方法,也让AI时代的数 ...

企业级嵌入模型微调实战,基于RTX 4000算力

博主头像 Embedding 模型微调实战:从 22% 到 97.9% 的踩坑记录 本文记录了在真实 IT 支持工单(Mantis Bug Tracker)数据集上微调 Embedding 模型的完整过程,包括所有踩过的坑和最终有效的方案。 背景 我们有一个基于 RAG(检索增强生成)的 AI 客服系统,核心 ...

从一个真实案例理解 JVM 标量替换

博主头像 从一个真实案例理解 JVM 标量替换 这不是一篇概念科普文,而是从真实代码出发,一步一步走到 JVM 能力边界的分析记录。 什么是标量替换 标量替换是 JIT(主要是 C2 编译器)的一种优化:如果 JVM 能证明一个对象不逃逸、生命周期完全受控、不需要对象身份(identity),就会彻底消除对象 ...

123···100>