python读取pdf

1. vscode 安装python插件

2. vscode 终端安装pdfminer.six , pdfplumber

python -m pip install pdfminer.six
python -m pip install pdfplumber

3. 在代码目录,放一个pdf文件,命名为1.pdf

4. 新建python文件,代码:

import pdfplumber

# 加载pdf
path = "1.pdf"
with pdfplumber.open(path) as pdf:
    print(pdf)
    print(type(pdf))

    # 读取pdf文档信息
    print("pdf文档信息:", pdf.metadata)

    # 输出总页数
    print("pdf文档总页数:", len(pdf.pages))

    # 1.读取第一页宽度、高度等信息
    first_page = pdf.pages[0]  # pdfplumber.Page对象第一页
    # 查看页码
    print('pdf页码:', first_page.page_number)
    # 查看页宽
    print('pdf页宽:', first_page.width)
    # 查看页高
    print('pdf页高:', first_page.height)

    # 2.读取文本第一页
    first_page = pdf.pages[0]  # pdfplumber.Page对象第一页
    text = first_page.extract_text()
    print(text)

5. vscode run in terminal,试试。

posted @ 2022-11-22 14:54  李济宏(Amadeus)  阅读(145)  评论(0编辑  收藏  举报