Live2D

Python - pdfplumber模块的简单使用

1.简介

pdfplumber专注PDF内容提取,例如文本(位置、字体及颜色等)和形状(矩形、直线、曲线),还有解析表格的功能。

2.安装

使用命令:pip install pdfplumber。

3.应用1:提取文字版PDF中的文字

#! /usr/bin/env python3
# -*- coding:utf-8 -*-

# Author   : MaYi
# Blog     : http://www.cnblogs.com/mayi0312/
# Date     : 2022-08-30
# Name     : test01
# Software : PyCharm
# Note     : 使用pdfplumber模块对PDF文件提取文字
# 导入模块
import os
import pdfplumber

# PDF文档文件名
pdf_name = os.path.abspath("test.pdf")

with pdfplumber.open(pdf_name) as pdf:  # 打开PDF文档
    page_001 = pdf.pages[0]  # 获取PDF文档指定页码
    text = page_001.extract_text()  # 提取文本
    print(text)

4.应用2:提取文字版PDF中的表格

#! /usr/bin/env python3
# -*- coding:utf-8 -*-

# Author   : MaYi
# Blog     : http://www.cnblogs.com/mayi0312/
# Date     : 2022-08-30
# Name     : test02
# Software : PyCharm
# Note     : 使用pdfplumber模块对PDF文件提取表格
# 导入模块
import os
import pdfplumber

# PDF文档文件名
pdf_name = os.path.abspath("test.pdf")

with pdfplumber.open(pdf_name) as pdf:  # 打开PDF文档
    page_001 = pdf.pages[0]  # 获取PDF文档指定页码
    one_table = page_001.extract_table()  # 提取单个表格
    # all_table = page_001.extract_tables()  # 提取多个表格
    print(one_table)

 

posted @ 2022-08-30 10:04  骑着螞蟻流浪  阅读(1373)  评论(0编辑  收藏  举报