Python - PDF 识别文字 (pdfplumber)
引言
本文基于 pdfplumber 实现 PDF 识别;
PDF 识别其他库:PyPDF2、;
参考:https://zhuanlan.zhihu.com/p/336643249
pdfplumber 简介
开源地址:https://github.com/jsvine/pdfplumber
安装准备
(base) $ sudo pip install pdfplumber
(base) $ sudo pip install pyttsx3
简单示例
import pdfplumber
# 读取 PDF 文档
pdf = pdfplumber.open("设计模式.pdf")
# 获取页数
print("总页数:",len(pdf.pages))
print("-----------------------------------------")
# 读取第 4 页;索引从 1 开始
page = pdf.pages[4]
print("本页:",page.page_number + 1)
print("-----------------------------------------")
# 导出第 4 页文本
text = page.extract_text()
print(text)
结果:
总页数: 261
-----------------------------------------
本页: 5
-----------------------------------------
xxxxx
xxxxx