返回顶部

提取PDF文件中的图片

复制代码

# -*- coding: utf-8 -*-
# pip install pyMuPDF 安装pyMuPDF库
import fitz
import io
from PIL import Image


def img():
    pdf_file = fitz.open("file/7_2.pdf")
    for page_no in range(len(pdf_file)):
        curr_page = pdf_file[page_no]
        images = curr_page.geImageList()
        # 迭代处理PDF文档中的图片
        for num, image in enumerate(curr_page.geImageList()):
            # 获取图片的XREF
            xref = image[0]
            # 提取图片的字节
            curr_image = pdf_file.extractImage(xref)
            img_bytes = curr_image['image']
            # 获取图片的扩展名
            img_extension = curr_image['ext']
            image = Image.open(io.BytesIO(img_bytes))
            # 将图片保存在本地
            image.save(open(f"file/第{page_no +1}页-第{num + 1}张图.{img_extension}", "wb"))


img()

复制代码

posted @ 2022-09-08 23:56 gz_zyg 阅读(128) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· Python读取PDF文档中的表格数据

· PDF文档的合并与拆分.py

· Python提取PDF中所有的图片

· 通过Python的fitz库提取PDF中的图片——（邓棋文）

· 软件测试|教你用Python处理PDF文件（三）

阅读排行：
· 无需6万激活码！GitHub神秘组织3小时极速复刻Manus，手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火，是硬核还是营销？
· 终于写完轮子一部分：tcp代理了，记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛（1）

公告

昵称： gz_zyg
园龄： 9年10个月
粉丝： 1
关注： 1

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

文章档案

2021年5月(1)

阅读排行榜