2016 年 4月 5 日随笔档案 - JamesPei

2016年4月5日

摘要：近期在做爬虫时有时会遇到网站只提供pdf的情况，这样就不能使用scrapy直接抓取页面内容了，只能通过解析PDF的方式处理，目前的解决方案大致只有pyPDF和PDFMiner。因为据说PDFMiner更适合文本的解析，而我需要解析的正是文本，因此最后选择使用PDFMiner(这也就意味着我对pyPD 阅读全文

posted @ 2016-04-05 17:14 JamesPei 阅读(66470) 评论(11) 推荐(3) 编辑

JamesPei的博客

C++, python, Linux, Distributed system

公告