Python - pdfplumber模块的简单使用

1.简介

pdfplumber专注PDF内容提取，例如文本（位置、字体及颜色等）和形状（矩形、直线、曲线），还有解析表格的功能。

2.安装

使用命令：pip install pdfplumber。

3.应用1：提取文字版PDF中的文字

#! /usr/bin/env python3
# -*- coding:utf-8 -*-

# Author   : MaYi
# Blog     : http://www.cnblogs.com/mayi0312/
# Date     : 2022-08-30
# Name     : test01
# Software : PyCharm
# Note     : 使用pdfplumber模块对PDF文件提取文字
# 导入模块
import os
import pdfplumber

# PDF文档文件名
pdf_name = os.path.abspath("test.pdf")

with pdfplumber.open(pdf_name) as pdf:  # 打开PDF文档
    page_001 = pdf.pages[0]  # 获取PDF文档指定页码
    text = page_001.extract_text()  # 提取文本
    print(text)

4.应用2：提取文字版PDF中的表格

#! /usr/bin/env python3
# -*- coding:utf-8 -*-

# Author   : MaYi
# Blog     : http://www.cnblogs.com/mayi0312/
# Date     : 2022-08-30
# Name     : test02
# Software : PyCharm
# Note     : 使用pdfplumber模块对PDF文件提取表格
# 导入模块
import os
import pdfplumber

# PDF文档文件名
pdf_name = os.path.abspath("test.pdf")

with pdfplumber.open(pdf_name) as pdf:  # 打开PDF文档
    page_001 = pdf.pages[0]  # 获取PDF文档指定页码
    one_table = page_001.extract_table()  # 提取单个表格
    # all_table = page_001.extract_tables()  # 提取多个表格
    print(one_table)

posted @ 2022-08-30 10:04 骑着螞蟻流浪阅读(1611) 评论(0) 收藏举报

刷新页面返回顶部

骑着螞蟻流浪

Python - pdfplumber模块的简单使用

1.简介

2.安装

3.应用1：提取文字版PDF中的文字

4.应用2：提取文字版PDF中的表格

公告