python pdf 操作

「pdfplumber:」

pdfplumber库按页处理 pdf ,获取页面文字,提取表格等操作。

学习文档:

「pypdf2:」

PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等。

官方文档:

 

import pdfplumber
filename = ""
# 提取pdf表格
with pdfplumber.open(filename) as pdf:
# page01 = pdf.pages[0] #指定页码
for page in pdf.pages:
text = page.extract_text()#提取文本
table1 = page.extract_table()#提取单个表格
table2 = page.extract_tables()#提取多个表格
print(text,table1,table2)

来源:Python操作PDF全总结|pdfplumber&PyPDF2 - 知乎 (zhihu.com)

posted @   记录——去繁就简  阅读(98)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示