摘要: 今天的具体内容将会从以下几个小节展开: 相关介绍 批量拆分 批量合并 提取文字内容 提起表格内容 提起图片内容 转换为PDF图片 添加水印 加密与解码 上述操作比较常用,也可以解决较多的办公内容,下面直接开始本节内容: 1. 相关介绍 Python 操作 PDF 会用到两个库,分别是:PyPDF2 阅读全文
posted @ 2022-03-14 11:02 青竹之下 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 6. 提取图片内容 提取 PDF 中的图片和将 PDF 转存为图片是不一样的(下一小节),需要区分开。 提取图片:顾名思义,就是将内容中的图片都提取出来; 转存为图片:则是将每一页的 PDF 内容存成一页一页的图片,下一小节会详细说明 转存为图片中,需要用到一个模块叫 fitz,fitz 的最新版 阅读全文
posted @ 2022-03-14 11:01 青竹之下 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 文档加密与解密 你可能在打开部分 PDF 文件的时候,会弹出下面这个界面: 这种就是 PDF 文件被加密了,在打开的时候需要相应的密码才行 本节所提到的也只是基于 PDF 文档的加密解密,而不是所谓的 PDF 密码破解。 在对 PDF 文件加密需要使用 encrypt 函数,对应的加密代码也比较简单 阅读全文
posted @ 2022-03-14 11:00 青竹之下 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-03-14 10:21 青竹之下 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 先来看一个例子,也是我以前做项目中的一部分内容。当你在搜狗搜索直接输入你的手机号码,你猜会出现什么? 正常情况下应该是你的手机号码+运营商+归属地。 但是可能会有一部分人会多一个标记,类似这种: 为什么会有着这种标记呢? 第一种情况是别人使用过这种软件对你进行了标记,俗称的人工打标签。第二种就是软件 阅读全文
posted @ 2022-03-14 10:20 青竹之下 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 下面一起来看一些如何使用 selenium 进行爬虫: 安装 selenium 和安装其他 Python 模块一样,直接 pip install selenium 就行了 当出现 successful 表示安装成功 下载相应的浏览器驱动 selenium 支持 IE、Chrome、Firxfox 等 阅读全文
posted @ 2022-03-14 10:18 青竹之下 阅读(34) 评论(0) 推荐(0) 编辑