python读取当前以pdf结尾的文件并保存到excel文件里面

使用python读取当前以pdf结尾的文件并保存到excel文件里面

#!pip install PyMuPDF　　调用fitz所需要使用的模块

import fitz
import openpyxl
import os

class Electronic:
　　def __init__(self,pdf_document,workbook,exsave):
　　　　self.LIST1 = []
　　　　self.LIST2 = []
　　　　self.pdf_document = pdf_document
　　　　self.workbook = workbook
　　　　self.exsave = exsave
　　　　self.wb = openpyxl.Workbook()

　　def invoice(self):
　　　　"""
　　　　读取数据
　　　　"""
　　　　doc = fitz.open(pdf_document)
　　　　page1 = doc.loadPage(0)
　　　　#读取excel里面的文本信息
　　　　self.LIST1.append(page1.getText("text"))
　　　　#切割回车符
　　　　LL = self.LIST1[0].split('\n')
　　　　#将读取的数据放入L2列表
　　　　self.LIST2.append(LL[75])
　　　　self.LIST2.append(LL[76])
　　　　self.LIST2.append(LL[77])
　　　　self.LIST2.append(LL[70])
　　　　#分隔空格后取出数值
　　　　self.LIST2.append(LL[79].split(' ')[1])
　　　　return self.LIST2

　　def pyexcel(self):
　　　　"""
　　　　插入数据
　　　　"""
　　　　self.wb = openpyxl.load_workbook(self.workbook)
　　　　#读取第一个单元薄
　　　　sh = self.wb['Sheet1']
　　　　#插入数据
　　　　sh.append(self.LIST2)

　　def save(self):
　　　　"""
　　　　保存数据
　　　　"""
　　　　self.wb.save(self.exsave)
　　　　# 关闭工作薄
　　　　self.wb.close()

if __name__ == '__main__':
　　workbook = '读取信息.xlsx'
　　exsave = '读取信息.xlsx'

　　#读取目录
　　path = os.getcwd()
　　#读取当前目录底下的文件
　　dir_file = os.listdir(path)
　　for i in dir_file:
　　　　#切割文件里面包含pdf结尾的文件
　　　　ii = i.endswith('.pdf')
　　　　if ii:
　　　　　　pdf_document = i
　　　　　　w = Electronic(pdf_document,workbook,exsave)
　　　　　　w.invoice()
　　　　　　w.pyexcel()
　　　　　　w.save()

#读取后的结果

posted @ 2020-12-16 10:51 python坚持者阅读(1048) 评论(0) 编辑收藏举报

刷新页面返回顶部

python坚持者

python读取当前以pdf结尾的文件并保存到excel文件里面

公告