批量提取pdf内的特定数据

批量提取pdf内的特定数据

需求介绍

实习的时候需要提取大量pdf内的日期,本身只是一个劳动力较大的工作,但是不想浪费太多时间,所以写了个程序直接呈现出来,节约时间。

需要注意的是,pdf文件需要是由word转过来的,或者至少是可以复制黏贴的,不是图片,如果是图片的话会比较麻烦,但是暂时不需要。

pdf内容提取

代码

from io import StringIO		# 用于像文件一样对字符串缓冲区或者叫做内存文件进行读写
import  os		# 各种 Python 程序与操作系统进行交互的接口
import re		# 正则表达式(挨千刀的正则表达式)
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage


def convert_pdf_2_text(path):	# pdf内容提取并返回全部文本
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()

    device = TextConverter(rsrcmgr, retstr,  laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)

    with open(path, 'rb') as fp:
        for page in PDFPage.get_pages(fp, set()):
            interpreter.process_page(page)
        text = retstr.getvalue()

    device.close()
    retstr.close()

    return text

filepath1 = "******" 	# 文件路径,此处是文件夹路径
list = []			# 用于存储文件夹内所有文件名的列表
for i,j,a in os.walk(filepath1):
    list.append(a)
num = len(a) - 1

for i in range(num) :
    result = ""
    path = filepath1 + a[i]
    lp = convert_pdf_2_text(path)
    test_text = re.findall(".....+/2021",lp)		# 正则表达式编写
    result = a[i] +" "+ result + "\n".join(test_text)
    print(result)

最终成果

![image-20220826170112336](C:\Users\yishu.shi\AppData\Roaming\Typora\typora-user-images![]

总结

你还是不得不承认会写代码,尤其是python代码给这种重复性较高的任务带来的便利,至少我这个实习期间被python救了很多次,希望寒假的美赛拿python建模也能这么方便。

posted @ 2022-08-26 17:04  tlott  阅读(684)  评论(0编辑  收藏  举报