2019 年 12月 30 日随笔档案 - Eeyhan

2019年12月30日

摘要：最近在爬一个网站，然后爬到详情页的时候发现，目标内容是用pdf在线预览的比如如下网站： https://camelot-py.readthedocs.io/en/master/_static/pdf/foo.pdf 根据我的分析发现，这样的在线预览pdf的采用了pdfjs加载预览，用爬虫的方法根本无法直接拿到pdf内的内容的，对的，你注意到了我说的【根本无法直接拿到】中的直接两个字，确实直接无法拿到，怎么办呢？只能把pdf先下载到本地，然后用工具转了，经过我查阅大量的相关资料发现，工具还是有很多：　　1.借用第三方的pdf转换网站转出来　　2.使用Python的包来转：如：pyPdf，pyPdf2，pyPdf4，pdfrw等工具这些工具在pypi社区一搜一大把：但是效果怎么样就不知道了，只能一个一个去试了，到后面我终于找到个库，非常符合我的需求的库 ——camelot camelot可以读取pdf文件中的数据，并且自动转换成p 阅读全文

posted @ 2019-12-30 12:58 Eeyhan 阅读(10544) 评论(4) 推荐(1) 编辑

geekbyte

公告