PDF解析+RAG,手把手教你在Coze搭建个人知识库!
在这个信息爆炸的时代,搭建个人知识库就像是拥有了一个超级智能的“外脑”。
它不仅能帮你储存知识,还能在你需要的时候迅速地调取信息,提高知识的使用效率。 此外,个人知识库还能够帮助我们系统化整理知识、融会贯通,将零散的信息整合成有条理的知识体系,省去人工梳理消耗的时间精力。
它可以充当优秀“智库”的角色——只要你提出准确的问题,它就能从大量文件中提取相关信息,给出详尽的答复。 在RAG进入视野之后,不少有技术能力的尝鲜者率先搭建了个人知识库。随着GPTs这一类“人工智能应用商店”的出现,更多不会敲代码的用户也能迈过技术门槛,拥有自己的知识库。
互联网上涌现出很多实用、有趣的案例:
技术博主的内容管理系统:技术博主通过建立知识库,将写作素材、研究资料和学习笔记整合在一起,提高写作效率,并且通过分享知识库内容建立个人品牌。
学术研究知识库:研究生和学者通过搭建知识库,整合研究资料、实验数据和论文草稿,使研究工作更加有序。
个人健康知识库:有人利用个人知识库整理了所有的健身知识,包括营养学、运动计划和睡眠质量等,用AI为自己制定健康管理计划,拥有一位了解自己方方面面的专属健康顾问。 搭建个人知识库是一个不断探索和优化的过程。
今天,合小研会逐步演示如何在Coze扣子平台搭建个人知识库! Step 1 使用TextIn文档解析,实现PDF批量转MD 搭建个人知识库的第一步,是知识数据准备与清理。要将“人类可读”数据转化为“机器可读”,我们需要优质的文档解析工具,准确识别PDF等编码格式文件中的文字、标题、图表,并以信息损失最小的方式传递给大模型。
工具指路:通用文档解析-RAG文本解析-PDF转markdown-TextInhttps://www.textin.com/market/detail/pdf_to_markdown
首先,作为暂时没有API需求的用户,我们直接点击在线使用,进入TextIn工作台。
在工作台界面,上传所有预备导入知识库的文件。我们以搭建LLM前沿研究知识库为例,首批先上传了23份LLM相关研究论文。 在解析快速完成后,点击左下角【多选】➡️【本页全选】,再点击右下角【批量导出】,就能获得转化为Markdown格式的所有文件。
Step 2 在Coze平台搭建知识库 登陆Coze扣子平台后,点击路径:【个人空间】➡️【知识库】➡️【创建知识库】,自行选择文件格式与上传渠道。 添加知识库名称与描述后,可以让Coze自动生成并挑选你满意的知识库图标~
确定基本信息后,上传我们在Step1批量解析的md文件。
点击下一步,来到【分段设置】。在自定义模式中,Coze支持自行设定分段标识符(换行、中文句号、英文句号、叹号及问号等)与分段最大长度,并可以勾选文本预处理规则。
进入下一步,待服务器数据处理完成后,知识库就创建成功了。 Step 3 创建属于你的问答Bot 选择【创建Bot】,为你的Bot起名并填写功能介绍。和创建知识库时一样,在这一步我们可以为Bot生成一个合适的图标。
*图标由Coze生成。 点击确认后,我们进入编排页面,在【知识】一栏,选择添加知识库。
添加我们先前建立的知识库。
点选【自动调用】,我们可以定义知识库的召回与回复设置。 如有需要,也可在上方另行调整模型设置。
完成简单编排后,在【预览与调试】窗口,我们可以进行测试。 例如图中,输入问题:“如何通过调整prompt来提高模型表现?”新创建的LLM知识问答Bot调用知识库中的论文信息,给出了高质量回答。
添💡小贴士: 部分Markdown文件中可能包含注释格式,用以保存图片解析信息等元素,而Coze平台对包含注释的md文件存在不兼容的现象,在上传过程中,你可能会看到如下报错⬇️
我们为大家提供一个脚本工具,用于便捷删除md文件中的注释,支持Linux、Windows、Mac系统,有使用需求的朋友可以下载。
链接:夸克网盘分享 https://pan.quark.cn/s/5295a7e187ed 以上就是本期Coze知识库搭建流程,欢迎和我们分享你的实践和妙用~
更多福利、大模型应用技术学习材料,关注公众号 合研社 即刻