02 2022 档案
摘要:思路:利用 pymupdf+pytesseract 通过pymupdf提取pdf文件中的图片,并写入到本地,然后利用tesseract-ocr去处理 1、安装pymupdf pip install pymupdf 虽然安装的库为pymupdf,实际上调用的包名为fitz 2、示例:提取pdf文件图片
阅读全文
摘要:openpyxl库不能够处理xls格式excel文件,这里可以使用python自带的包xlrd来进行处理 1、导包 import xlrd 2、打开文件 df = xlrd.open_workbook("test.xls") 3、sheet操作 # 获取sheet表单名 ['sheet1','she
阅读全文