批量提取pdf内的特定数据
批量提取pdf内的特定数据
需求介绍
实习的时候需要提取大量pdf内的日期,本身只是一个劳动力较大的工作,但是不想浪费太多时间,所以写了个程序直接呈现出来,节约时间。
需要注意的是,pdf文件需要是由word转过来的,或者至少是可以复制黏贴的,不是图片,如果是图片的话会比较麻烦,但是暂时不需要。
pdf内容提取
代码
from io import StringIO # 用于像文件一样对字符串缓冲区或者叫做内存文件进行读写
import os # 各种 Python 程序与操作系统进行交互的接口
import re # 正则表达式(挨千刀的正则表达式)
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
def convert_pdf_2_text(path): # pdf内容提取并返回全部文本
rsrcmgr = PDFResourceManager()
retstr = StringIO()
device = TextConverter(rsrcmgr, retstr, laparams=LAParams())
interpreter = PDFPageInterpreter(rsrcmgr, device)
with open(path, 'rb') as fp:
for page in PDFPage.get_pages(fp, set()):
interpreter.process_page(page)
text = retstr.getvalue()
device.close()
retstr.close()
return text
filepath1 = "******" # 文件路径,此处是文件夹路径
list = [] # 用于存储文件夹内所有文件名的列表
for i,j,a in os.walk(filepath1):
list.append(a)
num = len(a) - 1
for i in range(num) :
result = ""
path = filepath1 + a[i]
lp = convert_pdf_2_text(path)
test_text = re.findall(".....+/2021",lp) # 正则表达式编写
result = a[i] +" "+ result + "\n".join(test_text)
print(result)
最终成果
![image-20220826170112336](C:\Users\yishu.shi\AppData\Roaming\Typora\typora-user-images![]
总结
你还是不得不承认会写代码,尤其是python代码给这种重复性较高的任务带来的便利,至少我这个实习期间被python救了很多次,希望寒假的美赛拿python建模也能这么方便。