pdf和图片的处理一记

python是非常好用的一门语言，因为它有很多别人封装好底层逻辑的库，我们只需要用简单的函数调用或者经过并不复杂的初始化过程即可。最近要投递简历，所以在处理简历的时候遇到一个问题，就是生成了一份pdf简历，但有一页是多余的，一开始是用wps进行删除的，不过只进行删除然后保存一项操作，就要充钱了！！！吃相真难看！我是程序员，我还用你的逻辑吗？呸

截图转换成pdf

初始想法，是用截图的办法，来生成一张图片，然后使用pillow来进行处理(也就调用save函数，规定一下保存参数而已)。如下：

就一张截图，然后简单处理就可以了，需要说明的是下面用到的第三方库是pillow库：

 from PIL import Image
 
 
def main():
    path = "resume.png"
    img = Image.open(path)
    img.load()
    background = Image.new('RGB', img.size, (255, 255, 255))
    background.paste(img, mask=img.split()[3]) # 3 is the alpha channel
    background.save('res.pdf', save_all=True)
    img.close()
 
 
if __name__ == '__main__':
    main()

其实个人处理，直接用python的交互界面就行了的，简单快捷。不过最后得到的效果不好，因为照片转过来后，默认的转换得到的pdf很模糊。

第二弹

上面失败后，就想着从之前已经下载好的pdf入手，因为有两页，所以想切换成图片对象，然后把图片对象保存为pdf。
用到的库是pymupdf和上面的pillow。

 import fitz #pymupdf库
from PIL import Image
 
 
def main():
    # 保存第二页pdf为图片
    doc = fitz.open('balala.pdf')
    trans = fitz.Matrix(1.0, 1.0).prerotate(0)  #Matrix的参数是表示分辨率
    pix = doc[1].get_pixmap(matrix=trans, alpha=False)
    dpi = (pix.xres, pix.yres)
    img = Image.frombytes('RGB', (pix.width, pix.height), pix.samples)
    img.save('res.jpg', dpi=dpi)
    img.close()
    # 转换得到的图片为pdf
    img_pdf = Image.open('res.jpg')
    img_pdf.save('res.pdf', save_all=True)
    img_pdf.close()
 
 
if __name__ == "__main__":
    main()

嗯，满心欢喜打开一看。。。。。。妈哎，这都啥？比上面的还要模糊，生成的图片和pdf都是目标内容，但清晰度不够，没法子了，不搞转换那一套了，直接处理pdf！！！

pdf处理PyPDF2

如题所示，这里要用到的是PyPDF2这么一个库，不浪费时间，直接上代码：

 # encoding=utf-8
# 主要用到的就库里面的读取对象和写入对象
from PyPDF2 import PdfFileReader, PdfFileWriter
 
 
def main():
    pdf = PdfFileReader(open('test.pdf', 'rb'))
    pdf_res = PdfFileWriter()
    pdf_res.addPage(pdf.getPage(1))    #第二页，所以index是1
    pdf_res.write(open('res.pdf', 'wb'))
 
 
if __name__ == "__main__":
    main()

嗯，这次总算是ok了。如果是交互界面进行的话，记得最后关掉cmd的python进程再查看结果pdf，不然会显示文件损坏。

posted @ 2022-12-06 09:33 夏目&贵志阅读(285) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· opencv的学习记录(python)

· C中输入输出

· python中pdf处理库fitz的简单使用

· 软件测试|教你用Python处理PDF文件（三）

· Python 在PDF中添加、替换、或删除图片

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· Vue3状态管理终极指南：Pinia保姆级教程

2025年3月

日

一

二

三

四

五

六

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

1. 腾讯云服务器安装rabbitmq及简单测试记录(2)

夏目贵志

慢慢来，但不要停

pdf和图片的处理一记

截图转换成pdf

第二弹

pdf处理PyPDF2

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论

	from PIL import Image


	def main():
	path = "resume.png"
	img = Image.open(path)
	img.load()
	background = Image.new('RGB', img.size, (255, 255, 255))
	background.paste(img, mask=img.split()[3]) # 3 is the alpha channel
	background.save('res.pdf', save_all=True)
	img.close()


	if __name__ == '__main__':
	main()

	import fitz #pymupdf库
	from PIL import Image


	def main():
	# 保存第二页pdf为图片
	doc = fitz.open('balala.pdf')
	trans = fitz.Matrix(1.0, 1.0).prerotate(0) #Matrix的参数是表示分辨率
	pix = doc[1].get_pixmap(matrix=trans, alpha=False)
	dpi = (pix.xres, pix.yres)
	img = Image.frombytes('RGB', (pix.width, pix.height), pix.samples)
	img.save('res.jpg', dpi=dpi)
	img.close()
	# 转换得到的图片为pdf
	img_pdf = Image.open('res.jpg')
	img_pdf.save('res.pdf', save_all=True)
	img_pdf.close()


	if __name__ == "__main__":
	main()

	# encoding=utf-8
	# 主要用到的就库里面的读取对象和写入对象
	from PyPDF2 import PdfFileReader, PdfFileWriter


	def main():
	pdf = PdfFileReader(open('test.pdf', 'rb'))
	pdf_res = PdfFileWriter()
	pdf_res.addPage(pdf.getPage(1)) #第二页，所以index是1
	pdf_res.write(open('res.pdf', 'wb'))


	if __name__ == "__main__":
	main()