(python库)pdf发票销售方信息批量提取
import re
import pandas as pd
import pdfplumber
import glob
file = glob.glob(r'./发票/*.pdf', recursive=True)
data=[]
for i in file:
with pdfplumber.open(i) as pdf:
for page in pdf.pages:
df=page.extract_table()
df=df[-1][1].split("\n")
name=df[0][4:]
code=df[1][7:]
Bank=re.findall('[\u4e00-\u9fa5]+',str(df[3][7:]))[0]
account=re.findall('\d+',str(df[3][7:]))[0]
suju=[]
suju.append(name)
suju.append(code)
suju.append(Bank)
suju.append(account)
data.append(suju)
ff=pd.DataFrame(data,columns=("名称","统一信用编号","开户行","账号"))
ff.to_excel("保存文件名称.xlsx",index=False)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix