02 2022 档案

摘要:思路:利用 pymupdf+pytesseract 通过pymupdf提取pdf文件中的图片,并写入到本地,然后利用tesseract-ocr去处理 1、安装pymupdf pip install pymupdf 虽然安装的库为pymupdf,实际上调用的包名为fitz 2、示例:提取pdf文件图片 阅读全文
posted @ 2022-02-18 18:01 eliwang 阅读(2913) 评论(0) 推荐(0) 编辑
摘要:openpyxl库不能够处理xls格式excel文件,这里可以使用python自带的包xlrd来进行处理 1、导包 import xlrd 2、打开文件 df = xlrd.open_workbook("test.xls") 3、sheet操作 # 获取sheet表单名 ['sheet1','she 阅读全文
posted @ 2022-02-17 15:39 eliwang 阅读(2122) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示