摘要: 如果你用过 Hugging Face 的 Transformers 库,一定对 tokenizer 不陌生。它负责把"人话"变成"机器话"——也就是将文本转换成模型能理解的 token ID 序列。随着大模型从"单轮问答"走向"多轮对话",再到"调用外部工具完成任务",tokenizer 的角色早已 阅读全文
posted @ 2026-01-15 18:17 aopstudio 阅读(39) 评论(0) 推荐(0)
摘要: 如何优雅地下载 Hugging Face 模型 Hugging Face 已经成为事实上的开源模型分发中心,无论是 NLP、CV 还是多模态模型,几乎都可以通过一个 model id 直接获取完整权重与配置文件。 本文将系统介绍 推荐的 Hugging Face 模型下载方式,并解释为什么有些方法不 阅读全文
posted @ 2026-01-14 23:28 aopstudio 阅读(992) 评论(0) 推荐(0)
摘要: 在HuggingFace的模型页面,点击Chat template选项: 会看到下图这样的内容: 我第一次看到这样的写法时,完全不知道这是什么语言——既不像 Python,也不像 HTML。 查阅了一圈资料之后我才了解到:这里使用的是Jinja语法。Jinja 在大模型时代承担了一个重要角色——把结 阅读全文
posted @ 2026-01-12 19:09 aopstudio 阅读(127) 评论(0) 推荐(0)
摘要: 在上一篇中,我们拆解了传统 Hybrid ASR 的精密工厂:GMM/DNN 负责打分,HMM 负责对齐,Lexicon 负责翻译,n-gram 负责质检,最后由 WFST 统一调度。这套系统在 2010 年代取得了巨大成功,但也背负着沉重的枷锁。 而一种名为 CTC(Connectionist T 阅读全文
posted @ 2026-01-08 10:30 aopstudio 阅读(46) 评论(0) 推荐(0)
摘要: 如果你曾好奇"在现代端到端ASR系统普及之前,语音识别是怎么工作的?",那么答案就藏在一个高度工程化的系统里。它不像今天的端到端模型那样"一键出文字",而更像一座由四个车间组成的精密工厂: 声学打分车间(GMM/DNN):评估每一帧声音像什么发音 时间对齐车间(HMM + Viterbi):找出最合 阅读全文
posted @ 2025-12-31 18:45 aopstudio 阅读(25) 评论(0) 推荐(0)
摘要: 如果你用过语音助手、字幕生成工具,或者会议转录软件,那你其实已经和 自动语音识别(ASR, Automatic Speech Recognition)打过不少交道了。简单来说,ASR 的目标就是:把人类说的话,变成计算机能理解的文字。 听起来好像不难?但想想看——不同人说话的口音、语速、情绪千差万别 阅读全文
posted @ 2025-12-29 21:20 aopstudio 阅读(20) 评论(0) 推荐(0)
摘要: Dify插件开发的官方文档非常详细,但对于初学者来说,可能会觉得有些复杂,不知道从何入手。本文将通过一个实战案例,带你一步步了解如何在现有插件仓库的基础上进行修改,开发出属于自己的插件。 一、开发包准备 首先参考官方文档中《获取 Dify Plugin 开发包》部分,安装好开发包即可。 暂时不需要运 阅读全文
posted @ 2025-10-27 12:19 aopstudio 阅读(1220) 评论(0) 推荐(0)
摘要: 在现代 Web 应用开发中,构建 MVP(最简可行产品)时,后端基础设施的搭建常常成为主要瓶颈。开发者需要处理数据库、API、用户认证、权限控制、文件存储等多个模块,开发成本较高。 Supabase 提供了一种替代方案:它以 PostgreSQL 为核心,通过一系列集成服务,将数据库、API、认证、 阅读全文
posted @ 2025-10-11 14:35 aopstudio 阅读(3093) 评论(0) 推荐(0)
摘要: 一、什么是 llms.txt? llms.txt 是由 Jeremy Howard 于 2024 年 9 月 3 日提出的一项开放性提案,旨在为网站提供一个标准的、机器可读的入口,专门用于帮助大语言模型在推理(inference)阶段更有效地理解网站内容。 简要介绍一下Jeremy Howard,他 阅读全文
posted @ 2025-10-02 18:03 aopstudio 阅读(308) 评论(0) 推荐(0)
摘要: 最近Dify上线了一个新功能——知识管道(Knowledge Pipeline)。知识管道可以像乐高一样编排你的信息,以数据源(Data Source)作为起始节点,以知识库节点作为结束节点。其一般步骤为:从数据源导入文档 -> 使用抽取器提取文档内容 -> 将内容切分并清洗为结构化的片段 -> 存 阅读全文
posted @ 2025-09-26 11:24 aopstudio 阅读(77) 评论(0) 推荐(0)
Live2D