2014 年 10月 1 日随笔档案 - 捕蛇者说

2014年10月1日

摘要： 1. spider文件from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.selector im... 阅读全文

posted @ 2014-10-01 17:15 捕蛇者说阅读(272) 评论(0) 推荐(0) 编辑

[scrapy] PIL老是出错，换成pillow解决问题

摘要：使用scrapy下载图片的时候，用PIL老是下载不成功出现如下错误：IOError: encoder jpeg not available 据说是安装PIL之前缺少一些相关的包freetype freetype-devel libpng libpng-devel libjpeg libjpeg-de... 阅读全文

posted @ 2014-10-01 17:03 捕蛇者说阅读(640) 评论(0) 推荐(1) 编辑

scrapy 工作流程

摘要： Scrapy的整个数据处理流程由Scrapy引擎进行控制，其主要的运行方式为：引擎打开一个域名，蜘蛛处理这个域名，然后获取第一个待爬取的URL。引擎从蜘蛛那获取第一个需要爬取的URL，然后作为请求在调度中进行调度。引擎从调度那获取接下来进行爬取的页面。调度将下一个爬取的URL返回给引擎，引擎将他们通... 阅读全文

posted @ 2014-10-01 05:28 捕蛇者说阅读(475) 评论(0) 推荐(0) 编辑

公告