摘要:
加载 PDF 原始页面,保留完整内容不分割 在基于 LangChain 处理 PDF 文档的场景中,很多开发者默认使用的加载方式会自动将文档内容分割成小块,虽然便于后续检索,但有时我们更需要保留 PDF 原始页面的完整内容 —— 比如解析出团通知书、合同类 PDF 时,按页码完整提取内容才能保证信息 阅读全文
posted @ 2026-03-12 10:32
万笑佛
阅读(192)
评论(0)
推荐(0)
摘要:
文档中的文字加载后,就要向量化存在向量数据库里,提供给后面的业务逻辑使用,但是在这之前还需要对文本进行分割,分割后的结果在进行向量化,今天主要讲一讲langchain常用的几种文本分割。 LangChain 文本分割:从基础到进阶的实战指南 在基于大模型构建知识库、RAG 等应用时,文本分割是核心前 阅读全文
posted @ 2026-03-11 10:21
万笑佛
阅读(219)
评论(0)
推荐(0)
摘要:
上节讲如何将文本进行向量化,本节讲讲如何将文本文件加载到程序中,进行下一步处理,langchain 的 TextLoader提供了这个功能。 langchain 的 TextLoader 并非支持所有文本格式,它的核心作用是读取「纯文本类文件」,对非纯文本格式(如带格式的文档、二进制文件)无法直接解 阅读全文
posted @ 2026-03-10 10:55
万笑佛
阅读(212)
评论(0)
推荐(0)
摘要:
之前讲了milvus向量数据库如何使用,但是如何把文本信息转成向量?这个问题一直没有讲,今天就讲讲,这是构建RAG关键的一步,咱们使用all-MiniLM-L6-v2本地模型将文本转成向量。 为什么用它最直接的原因是免费还好用,调用各大平台的向量模型是要收费的,所以使用本地化向量模型从部署到使用都是 阅读全文
posted @ 2026-03-09 10:42
万笑佛
阅读(239)
评论(0)
推荐(0)
摘要:
解锁 Milvus 新玩法:基于文本匹配的精准检索实战 在向量数据库的主流应用里,大家通常更关注向量相似度检索,但 Milvus 除了强大的向量检索能力外,还内置了非常实用的文本匹配功能。我们不需要额外引入搜索引擎,就能直接在文本字段上做精准关键词检索,快速搭建支持文本过滤的检索服务。 一、Milv 阅读全文
posted @ 2026-03-06 11:02
万笑佛
阅读(135)
评论(0)
推荐(0)
摘要:
milvus也能像ES一样具有全文检索能力,某些场景下可以使用milvus来实现全文检索,使用场景和代码如何实现请看下文。 基于 Milvus 实现高效全文检索:BM25 算法的落地实践 全文检索是信息检索领域的核心能力,广泛应用于搜索引擎、智能问答、文档匹配等场景。传统的全文检索方案往往需要手动处 阅读全文
posted @ 2026-03-06 10:46
万笑佛
阅读(167)
评论(0)
推荐(0)
摘要:
Milvus 三种核心查询方式:get/query/迭代器 在向量数据库的实际应用中,查询功能是衔接数据存储与业务落地的核心环节。Milvus 作为主流向量数据库,针对不同业务场景设计了多种灵活的查询方式,其中 get 主键查询、query 条件过滤查询、query_iterator 迭代器查询是最 阅读全文
posted @ 2026-03-05 10:27
万笑佛
阅读(66)
评论(0)
推荐(0)
摘要:
在向量检索场景中,我们常遇到“按指定字段分组,获取每组最相似结果”的需求(如按文档ID分组,返回每个文档下与查询向量最匹配的内容)。Milvus的分组检索(group by)功能,可高效实现这一需求,无需额外二次筛选。本文将聚焦Milvus分组检索核心知识点,搭配极简前置操作(其他操作一带而过),帮 阅读全文
posted @ 2026-03-04 10:28
万笑佛
阅读(76)
评论(0)
推荐(0)
浙公网安备 33010602011771号