软件测试|教你用Python处理PDF文件（三）

在这里插入图片描述

前言

我们之前介绍了提取PDF文件中的文字内容，我们使用PyPDF2即可实现操作，但是如果PDF文件有图片的话，只提取文本的话无法把图片的内容一起提取出来，我们需要另外的脚本来实现对图片的提取。

环境准备

对于抽取PDF中的图片，我们使用的还是PyPDF2这个库，安装命令如下：

pip install PyPDF2

我们还是使用之前使用的过的，test2.pdf来用做例子。

使用实例

我们提取PDF文件中的图片的代码如下：

import PyPDF2
from PIL import Image


def extract_images_from_pdf(pdf_path, output_folder):
    pdf_file = open(pdf_path, 'rb')
    pdf_reader = PyPDF2.PdfReader(pdf_file)

    image_count = 0
    for page_number in range(len(pdf_reader.pages)):
        page = pdf_reader.pages[page_number]
        if '/XObject' in page['/Resources']:
            x_objects = page['/Resources']['/XObject'].get_object()
            for obj in x_objects:
                if x_objects[obj]['/Subtype'] == '/Image':
                    image = x_objects[obj]
                    if '/Filter' in image:
                        if image['/Filter'] == '/DCTDecode':
                            image_ext = 'jpg'
                        elif image['/Filter'] == '/JPXDecode':
                            image_ext = 'jp2'
                        else:
                            image_ext = 'png'
                    else:
                        image_ext = 'png'

                    image_data = image._data
                    image_name = f'image_{image_count}.{image_ext}'
                    image_path = f'{output_folder}/{image_name}'

                    with open(image_path, 'wb') as img_file:
                        img_file.write(image_data)

                    print(f'Saved image: {image_path}')
                    image_count += 1

    pdf_file.close()


# 使用示例
pdf_path = 'files/test2.pdf'  # PDF文件路径
output_folder = 'files'  # 图片输出的文件夹路径

extract_images_from_pdf(pdf_path, output_folder)

运行脚本，发现files文件夹新增了两个jpg文件，如下：

在这里插入图片描述

图片如下：

在这里插入图片描述

总结

本文主要介绍了使用PyPDF2库实现对PDF文件中的图片进行提取的操作，后续我们将介绍提取PDF文件中的表格内容。

获取更多技术资料，请点击！

posted @ 2023-08-14 14:17 霍格沃兹测试开发学社阅读(75) 评论(0) 收藏举报

刷新页面返回顶部

霍格沃兹测试开发学社

《Python测试开发进阶训练营》（随到随学！）
2023年第2期《Python全栈开发与自动化测试班》（开班在即）
报名联系weixin/qq：2314507862

软件测试|教你用Python处理PDF文件（三）

前言

环境准备

使用实例

总结

公告

霍格沃兹测试开发学社

《Python测试开发进阶训练营》（随到随学！） 2023年第2期《Python全栈开发与自动化测试班》（开班在即） 报名联系weixin/qq：2314507862

软件测试|教你用Python处理PDF文件（三）

前言

环境准备

使用实例

总结

公告

《Python测试开发进阶训练营》（随到随学！）
2023年第2期《Python全栈开发与自动化测试班》（开班在即）
报名联系weixin/qq：2314507862