PDF转PNG,抽取文本和表格
PDF文件转为图片格式。
可以将多个PDF文件合并起来。
import pdfplumber
import os
from pathlib import Path
def pdf_to_png(pdf_file_name):
pdf = pdfplumber.open(pdf_file_name)
print('共{}页'.format(len(pdf.pages)))
i = 0
for page in pdf.pages:
im = page.to_image()
im.save(Path(str(i) + '.png'))
i = i + 1
遍历page,page.extract_text()取文本,page.find_tables()和 page.extract_table()取表格