python读取pdf
1. vscode 安装python插件
2. vscode 终端安装pdfminer.six , pdfplumber
python -m pip install pdfminer.six
python -m pip install pdfplumber
3. 在代码目录,放一个pdf文件,命名为1.pdf
4. 新建python文件,代码:
import pdfplumber
# 加载pdf
path = "1.pdf"
with pdfplumber.open(path) as pdf:
print(pdf)
print(type(pdf))
# 读取pdf文档信息
print("pdf文档信息:", pdf.metadata)
# 输出总页数
print("pdf文档总页数:", len(pdf.pages))
# 1.读取第一页宽度、高度等信息
first_page = pdf.pages[0] # pdfplumber.Page对象第一页
# 查看页码
print('pdf页码:', first_page.page_number)
# 查看页宽
print('pdf页宽:', first_page.width)
# 查看页高
print('pdf页高:', first_page.height)
# 2.读取文本第一页
first_page = pdf.pages[0] # pdfplumber.Page对象第一页
text = first_page.extract_text()
print(text)
5. vscode run in terminal,试试。
喜欢请赞赏一下啦^_^