12 2019 档案

python爬虫处理在线预览的pdf文档

摘要：最近在爬一个网站，然后爬到详情页的时候发现，目标内容是用pdf在线预览的比如如下网站： https://camelot-py.readthedocs.io/en/master/_static/pdf/foo.pdf 根据我的分析发现，这样的在线预览pdf的采用了pdfjs加载预览，用爬虫的方法根本无法直接拿到pdf内的内容的，对的，你注意到了我说的【根本无法直接拿到】中的直接两个字，确实直接无法拿到，怎么办呢？只能把pdf先下载到本地，然后用工具转了，经过我查阅大量的相关资料发现，工具还是有很多：　　1.借用第三方的pdf转换网站转出来　　2.使用Python的包来转：如：pyPdf，pyPdf2，pyPdf4，pdfrw等工具这些工具在pypi社区一搜一大把：但是效果怎么样就不知道了，只能一个一个去试了，到后面我终于找到个库，非常符合我的需求的库 ——camelot camelot可以读取pdf文件中的数据，并且自动转换成p 阅读全文

posted @ 2019-12-30 12:58 Eeyhan 阅读(10634) 评论(4) 推荐(1) 编辑

公告

以后文章质量相对较高的都只在微信公众号
博某园审核感人，老吞文章，不再浪费时间

爬虫的尽头是逆向，逆向的源头是Java

爬虫的捷径是 A I ， A I 的源头是算法

逆向的尽头是开发，开发的重心是c/c++

微信公众号：编角料(geekbyter)
微信：geekbyte

GitHub CSDN

昵称： Eeyhan
园龄： 7年5个月
粉丝： 264
关注： 2

+加关注

geekbyte

12 2019 档案

公告

以后文章质量相对较高的都只在微信公众号
博某园审核感人，老吞文章，不再浪费时间

爬虫的尽头是逆向，逆向的源头是Java

爬虫的捷径是 A I ， A I 的源头是算法

逆向的尽头是开发，开发的重心是c/c++

搜索

最新随笔

随笔分类 (290)

随笔档案 (239)

阅读排行榜

geekbyte

12 2019 档案

公告

以后文章质量相对较高的都只在微信公众号 博某园审核感人，老吞文章，不再浪费时间

爬虫的尽头是逆向，逆向的源头是Java

爬虫的捷径是 A I ， A I 的源头是算法

逆向的尽头是开发，开发的重心是c/c++

搜索

最新随笔

随笔分类 (290)

随笔档案 (239)

阅读排行榜

以后文章质量相对较高的都只在微信公众号
博某园审核感人，老吞文章，不再浪费时间