软件测试|教你用Python处理PDF文件(三)
前言
我们之前介绍了提取PDF文件中的文字内容,我们使用PyPDF2即可实现操作,但是如果PDF文件有图片的话,只提取文本的话无法把图片的内容一起提取出来,我们需要另外的脚本来实现对图片的提取。
环境准备
对于抽取PDF中的图片,我们使用的还是PyPDF2这个库,安装命令如下:
pip install PyPDF2
我们还是使用之前使用的过的,test2.pdf来用做例子。
使用实例
我们提取PDF文件中的图片的代码如下:
import PyPDF2
from PIL import Image
def extract_images_from_pdf(pdf_path, output_folder):
pdf_file = open(pdf_path, 'rb')
pdf_reader = PyPDF2.PdfReader(pdf_file)
image_count = 0
for page_number in range(len(pdf_reader.pages)):
page = pdf_reader.pages[page_number]
if '/XObject' in page['/Resources']:
x_objects = page['/Resources']['/XObject'].get_object()
for obj in x_objects:
if x_objects[obj]['/Subtype'] == '/Image':
image = x_objects[obj]
if '/Filter' in image:
if image['/Filter'] == '/DCTDecode':
image_ext = 'jpg'
elif image['/Filter'] == '/JPXDecode':
image_ext = 'jp2'
else:
image_ext = 'png'
else:
image_ext = 'png'
image_data = image._data
image_name = f'image_{image_count}.{image_ext}'
image_path = f'{output_folder}/{image_name}'
with open(image_path, 'wb') as img_file:
img_file.write(image_data)
print(f'Saved image: {image_path}')
image_count += 1
pdf_file.close()
# 使用示例
pdf_path = 'files/test2.pdf' # PDF文件路径
output_folder = 'files' # 图片输出的文件夹路径
extract_images_from_pdf(pdf_path, output_folder)
运行脚本,发现files文件夹新增了两个jpg文件,如下:
图片如下:
总结
本文主要介绍了使用PyPDF2库实现对PDF文件中的图片进行提取的操作,后续我们将介绍提取PDF文件中的表格内容。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了