python pdf 操作

「pdfplumber：」

pdfplumber库按页处理 pdf ，获取页面文字，提取表格等操作。

学习文档：https://github.com/jsvine/pdfplumber

「pypdf2：」

PyPDF2 是一个纯 Python PDF 库，可以读取文档信息（标题，作者等）、写入、分割、合并PDF文档，它还可以对pdf文档进行添加水印、加密解密等。

import pdfplumber
filename = ""
# 提取pdf表格
with pdfplumber.open(filename) as pdf:
    # page01 = pdf.pages[0] #指定页码
    for page in pdf.pages:
        text = page.extract_text()#提取文本
        table1 = page.extract_table()#提取单个表格
        table2 = page.extract_tables()#提取多个表格
        print(text,table1,table2)

来源：Python操作PDF全总结|pdfplumber&PyPDF2 - 知乎 (zhihu.com)

posted @ 2022-06-26 18:48 记录——去繁就简阅读(163) 评论(0) 收藏举报

刷新页面返回顶部

记录——去繁就简

python pdf 操作

公告