2013年10月16日
摘要: 【请初学者作为参考,不建议高手看这个浪费时间】上一篇文章里介绍了scrapy的主要优点及linux下的安装方式,此篇文章将简要介绍scrapy的爬取过程,本文大部分内容源于scrapy文档,翻译并加上了笔者自己的理解。忘记scrapy,一般所说的爬虫工作分为两个部分,downoader 和 parser:downloader输入是url列表,输出抓取到的rawdata,可能时候是html源代码,也可能是json,xml格式的数据。parser输入是第一部分输出的rawdata,根据已知的规则提取所需的info图1. 简单爬虫图1所示的是最简单的爬虫,不考虑解析url,并把rawdata中的ur 阅读全文
posted @ 2013-10-16 18:03 一个人的天空@ 阅读(1297) 评论(0) 推荐(0) 编辑
摘要: 【请初学者作为参考,不建议高手看这个浪费时间】工作中经常会有这种需求,需要抓取互联网上的数据。笔者就经常遇到这种需求,一般情况下会临时写个抓取程序,但是每次遇到这种需求的时候,都几乎要重头写,特别是面临需要抓取大数量网页,并且被抓取网站有放抓取机制的时候,处理起来就会很麻烦。无意中接触到了一个开源的抓取框架scrapy,按照introduction做了第一个dirbot爬虫,觉得很方便,就小小研究了一下,并在工作中用到过几次。scrapy的文档是英文的,网上相关的说明很少,使用的过程中也遇到过很多问题,大部分都是在stack overflow上找到的解答,看来这个工具国外的同行们用的会更多些。 阅读全文
posted @ 2013-10-16 18:02 一个人的天空@ 阅读(1411) 评论(0) 推荐(0) 编辑
摘要: 【请初学者作为参考,不建议高手看这个浪费时间】上一篇文章,我们抓取到了一大批代理ip,本篇文章介绍如何实现downloaderMiddleware,达到随即使用代理ip对目标网站进行抓取的。抓取的目标网站是现在炙手可热的旅游网站www.qunar.com,目标信息是qunar的所有seo页面,及页面的seo相关信息。qunar并没有一般网站具有的 robots.txt文件,所以无法利用列表进行抓取,但是,可以发现,qunar的seo页面主要部署在http://www.qunar.com/routes/下,这个页面为入口文件,由此页面及此页面上所有带有routes的链接开始递归的抓取所有带有ro 阅读全文
posted @ 2013-10-16 18:01 一个人的天空@ 阅读(1048) 评论(0) 推荐(0) 编辑
摘要: 请初学者作为参考,不建议高手看这个浪费时间】前两篇大概讲述了scrapy的安装及工作流程。这篇文章主要以一个实例来介绍scrapy的开发流程,本想以教程自带的dirbot作为例子,但感觉大家应该最先都尝试过这个示例,应该都很熟悉,这里不赘述,所以,将用笔者自己第一个较为完整的抓取程序作为示例作为讲解。首先,要大规模抓取一个网站的内容,必要的资源便是代理ip这一资源,如果不使用代理ip,又追求抓取的速度,很可能会被被抓网站发现行踪并封掉抓取机,所以抓取大量可用的代理ip便是我们第一个任务。大概这个爬虫要实现以下三个功能:1. 抓取代理ip,端口信息2. 验证代理ip,判断其透明性3. 将可用的代 阅读全文
posted @ 2013-10-16 18:00 一个人的天空@ 阅读(5148) 评论(1) 推荐(0) 编辑