摘要: 1. spider文件from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.selector im... 阅读全文
posted @ 2014-10-01 17:15 捕蛇者说 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 使用scrapy下载图片的时候,用PIL老是下载不成功出现如下错误:IOError: encoder jpeg not available 据说是安装PIL之前缺少一些相关的包freetype freetype-devel libpng libpng-devel libjpeg libjpeg-de... 阅读全文
posted @ 2014-10-01 17:03 捕蛇者说 阅读(640) 评论(0) 推荐(1) 编辑
摘要: Scrapy的整个数据处理流程由Scrapy引擎进行控制,其主要的运行方式为:引擎打开一个域名,蜘蛛处理这个域名,然后获取第一个待爬取的URL。引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。引擎从调度那获取接下来进行爬取的页面。调度将下一个爬取的URL返回给引擎,引擎将他们通... 阅读全文
posted @ 2014-10-01 05:28 捕蛇者说 阅读(475) 评论(0) 推荐(0) 编辑