PDF转PNG,抽取文本和表格

PDF文件转为图片格式。
可以将多个PDF文件合并起来。

import pdfplumber
import os
from pathlib import Path

def pdf_to_png(pdf_file_name):
    pdf = pdfplumber.open(pdf_file_name)
    print('共{}页'.format(len(pdf.pages)))
    i = 0
    for page in pdf.pages:
        im = page.to_image()
        im.save(Path(str(i) + '.png'))
        i = i + 1

遍历page,page.extract_text()取文本,page.find_tables()和 page.extract_table()取表格

https://blog.csdn.net/fuhanghang/article/details/122579548

posted on 2023-01-11 10:21  宋岳庭  阅读(36)  评论(0编辑  收藏  举报