12 2019 档案
摘要:最近在爬一个网站,然后爬到详情页的时候发现,目标内容是用pdf在线预览的
比如如下网站:
https://camelot-py.readthedocs.io/en/master/_static/pdf/foo.pdf
根据我的分析发现,这样的在线预览pdf的采用了pdfjs加载预览,用爬虫的方法根本无法直接拿到pdf内的内容的,对的,你注意到了我说的【根本无法直接拿到】中的直接两个字,确实直接无法拿到,怎么办呢?只能把pdf先下载到本地,然后用工具转了,经过我查阅大量的相关资料发现,工具还是有很多:
1.借用第三方的pdf转换网站转出来
2.使用Python的包来转:如:pyPdf,pyPdf2,pyPdf4,pdfrw等工具
这些工具在pypi社区一搜一大把:
但是效果怎么样就不知道了,只能一个一个去试了,到后面我终于找到个库,非常符合我的需求的库 ——camelot
camelot可以读取pdf文件中的数据,并且自动转换成p
阅读全文
公告
搜索
最新随笔
- 1.app逆向之安卓native层安全逆向分析(八):unidbg补前置环境+io重定向
- 2.app逆向之安卓native层安全逆向分析(七):unidbg自尝试某潮流app+dvmObject[]处理
- 3.某app请求参数分析
- 4.app逆向之安卓native层安全逆向分析(六):frida调试跟栈+unidbg补环境大动作
- 5.app逆向之安卓native层安全逆向分析(五):unidbg黑盒调用
- 6.2023安卓&web网络协议课
- 7.app逆向之安卓native层安全逆向分析(四):unidbg模拟调用
- 8.app逆向之安卓native层安全逆向分析(三):ida使用+unidbg补环境+算法还原
- 9.app逆向之安卓native层安全逆向分析(二):unidbg+ida使用+过签名校验
- 10.让安卓手机wifi保持连接
随笔分类 (290)
随笔档案 (239)
- 2023年5月(2)
- 2023年4月(12)
- 2023年3月(2)
- 2022年7月(1)
- 2021年12月(6)
- 2021年11月(9)
- 2021年10月(1)
- 2021年9月(10)
- 2021年8月(2)
- 2021年7月(2)
- 2021年6月(4)
- 2021年5月(2)
- 2021年4月(5)
- 2021年1月(2)
- 2020年12月(3)
- 2020年9月(1)
- 2020年8月(4)
- 2020年6月(6)
- 2020年5月(5)
- 2020年4月(1)
- 2020年3月(1)
- 2020年2月(1)
- 2020年1月(1)
- 2019年12月(1)
- 2019年9月(1)
- 2019年4月(2)
- 2019年3月(15)
- 2019年2月(13)
- 2019年1月(1)
- 2018年12月(1)
- 2018年11月(19)
- 2018年3月(4)
- 2018年2月(11)
- 2018年1月(2)
- 2017年12月(10)
- 2017年11月(25)
- 2017年10月(43)
- 2017年9月(8)
- 更多
阅读排行榜
- 1. python爬虫之requests.exceptions.ProxyError: HTTPSConnectionPool(host='www.xxxx.com', port=443): Max retries exceeded with url: / (Caused by ProxyError('Cannot connect to proxy.', timeout('_ssl.c:1108: Th(24406)
- 2. 对app的反爬测试之apk逆向分析-frida绕过ssl pinning检测(13150)
- 3. python高级—— 从趟过的坑中聊聊爬虫、反爬、反反爬,附送一套高级爬虫试题(10655)
- 4. python爬虫处理在线预览的pdf文档(10634)
- 5. python爬虫- js逆向解密之破解AES(CryptoJS)加密的反爬机制(10257)