RAG学习--pdf读取与切割

RAG流程：

线下：

1、文档加载

2、文档切分

3、向量化

4、向向量数据库灌数据

线上：

1、获取用户问题

2、用户问题向量化

3、检索向量数据库

4、将检索结果和问题填充到pomp模板

5、用最终获得的pomp调用LLM

6、最终由LLM生成回复

本篇完成文档加载与切割(pdf加载与切割)

1、文档加载

加载PDF：

llama2.pdf

安装pdf读取包

pip install pdfminer.six

from pdfminer.high_level import extract_pages

from pdfminer.layout import LTTextContainer

#从pdf中提取文本extract_text_from_pdf

def extract_text_from_pdf(pdf_path,page_numbers=None,min_line_length =1):

paragraphs =[]

buff =''

full_text = ''

for i , page_layout in enumerate(extract_pages(pdf_path)):

if page_numbers is not None and i not in page_numbers:

continue

for element in page_layout:

if isinstance(element,LTTextContainer):

full_text += element.get_text() +'\n'

lines = full_text.split('\n')

for line in lines:

if len(line) >= min_line_length:

buff += (' '+line) if not line.endswith('-') else line.strip('-')

elif buff:

paragraphs.append(buff)

buff = ''

if buff:

paragraphs.append(buff)

return paragraphs

#以上是pdf读取方法extract_text_from_pdf

#调用程序,并显示前四行

paragraphs = extract_text_from_pdf('llama2.pdf',min_line_length=4)

for page in paragraphs[:4]:

print(page+'\n')

在terminal执行：py .\pdfread.py显示结果

pdf加载与切割完毕。

posted @ 2024-05-12 22:17 kin2022 阅读(190) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 初学HOOK(hook xhr实践)

· vs code--AI编码助手(GitHub Copilot)安装使用

· RAG模块全局架构

· RAG应用开发实战(01)-RAG应用框架和解析器

· pdf多模态rag问答

公告

昵称： kin2022
园龄： 2年3个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

RAG学习--pdf读取与切割

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜