摘要: LangChain高效加载 Excel 数据为文档,解锁大模型数据处理新能力 在大模型应用开发中,我们经常需要将结构化的 Excel 数据转化为大模型可理解的文档格式,而 LangChain 作为大模型应用开发的主流框架,提供了极简且高效的解决方案,完美适配 Excel 数据的加载与转换需求。 一、 阅读全文
posted @ 2026-03-23 10:19 万笑佛 阅读(19) 评论(0) 推荐(0)
摘要: 【LangChain 实战】利用 LangChain 高效提取 Word 文档纯文本内容 适用场景:文档智能处理 | RAG 知识库构建 | AI 大模型语料预处理 | 办公文档自动化 在 AI 应用开发、RAG 检索增强生成、企业知识库搭建等场景中,从 Word 文档中提取纯净文本是必不可少的前置 阅读全文
posted @ 2026-03-19 10:19 万笑佛 阅读(155) 评论(0) 推荐(0)
摘要: EasyOCR 应用 在日常办公、数据处理、资料整理中,我们经常会遇到图片转文字的需求:截图里的文案无法复制、PDF 扫描件不能编辑、证件信息需要手动录入、外文图片需要提取文本…… 传统手动录入效率极低,而专业 OCR 工具要么收费,要么配置复杂。 今天给大家分享一款零门槛、高性能、免费开源的 Py 阅读全文
posted @ 2026-03-18 10:38 万笑佛 阅读(192) 评论(0) 推荐(1)
摘要: 高效提取 PDF 中的所有图片:一键批量导出,无损保存超实用! 在日常处理 PDF 文档时,我们经常会遇到需要提取 PDF 内图片的场景:整理文档中的图表、保存白皮书里的高清插图、提取报告中的数据配图、收集课件里的关键图片…… 手动截图不仅模糊、效率极低,还会丢失原图分辨率,有没有更高效、无损的解决 阅读全文
posted @ 2026-03-17 10:15 万笑佛 阅读(107) 评论(0) 推荐(0)
摘要: 解决PDF读取内存溢出!轻量分页加载实现方案 在日常开发中,我们经常会遇到PDF文件读取的需求——可能是解析文档内容、提取关键信息,也可能是生成文档预览。但如果面对几十页、上百页的大型PDF,直接一次性加载全部内容,很容易出现内存溢出、程序卡顿甚至崩溃的问题,尤其是在服务器端或资源有限的设备上,这个 阅读全文
posted @ 2026-03-16 10:41 万笑佛 阅读(109) 评论(0) 推荐(0)
摘要: 上一篇博客介绍了,加载pdf按页分割的方法,今天讲讲如何自定义分割pdf文件。 LangChain 实战:PDF 文档智能加载与自定义文本分割 在基于大模型的 RAG 应用开发中,PDF 文档加载与精细化文本分割是核心基础环节。分割的质量直接决定了后续向量检索的精准度和大模型回答的效果。今天给大家分 阅读全文
posted @ 2026-03-13 10:19 万笑佛 阅读(119) 评论(0) 推荐(0)
摘要: 加载 PDF 原始页面,保留完整内容不分割 在基于 LangChain 处理 PDF 文档的场景中,很多开发者默认使用的加载方式会自动将文档内容分割成小块,虽然便于后续检索,但有时我们更需要保留 PDF 原始页面的完整内容 —— 比如解析出团通知书、合同类 PDF 时,按页码完整提取内容才能保证信息 阅读全文
posted @ 2026-03-12 10:32 万笑佛 阅读(151) 评论(0) 推荐(0)
摘要: 文档中的文字加载后,就要向量化存在向量数据库里,提供给后面的业务逻辑使用,但是在这之前还需要对文本进行分割,分割后的结果在进行向量化,今天主要讲一讲langchain常用的几种文本分割。 LangChain 文本分割:从基础到进阶的实战指南 在基于大模型构建知识库、RAG 等应用时,文本分割是核心前 阅读全文
posted @ 2026-03-11 10:21 万笑佛 阅读(127) 评论(0) 推荐(0)
摘要: 上节讲如何将文本进行向量化,本节讲讲如何将文本文件加载到程序中,进行下一步处理,langchain 的 TextLoader提供了这个功能。 langchain 的 TextLoader 并非支持所有文本格式,它的核心作用是读取「纯文本类文件」,对非纯文本格式(如带格式的文档、二进制文件)无法直接解 阅读全文
posted @ 2026-03-10 10:55 万笑佛 阅读(126) 评论(0) 推荐(0)
摘要: 之前讲了milvus向量数据库如何使用,但是如何把文本信息转成向量?这个问题一直没有讲,今天就讲讲,这是构建RAG关键的一步,咱们使用all-MiniLM-L6-v2本地模型将文本转成向量。 为什么用它最直接的原因是免费还好用,调用各大平台的向量模型是要收费的,所以使用本地化向量模型从部署到使用都是 阅读全文
posted @ 2026-03-09 10:42 万笑佛 阅读(123) 评论(0) 推荐(0)