scrapy 笔记
scrapy是python最有名的爬虫框架之一,可以很方便的进行web抓取,并且提供了很强的定制型,这里记录简单学习的过程和在实际应用中会遇到的一些常见问题
一、安装
在安装scrapy之前有一些依赖需要安装,否则可能会安装失败,scrapy的选择器依赖于lxml,还有Twisted网络引擎,下面是ubuntu下安装的过程
linux下安装
# 1. 安装xml依赖库 $ sudo apt-get install libxml2 libxml2-dev $ sudo apt-get install libxslt1-dev $ sudo apt-get install python-libxml2 # 2. 安装lxml $ sudo pip install lxml # 3. 安装Twisted(版本可以换成最新的),用pip也可以,如果失败的话下载源码安装,如下 $ wget https://pypi.python.org/packages/6b/23/8dbe86fc83215015e221fbd861a545c6ec5c9e9cd7514af114d1f64084ab/Twisted-16.4.1.tar.bz2#md5=c6d09bdd681f538369659111f079c29d $ tar xjf Twisted-16.4.1.tar.bz2 $ cd Twisted-16.4.1 $ sudo python setup.py install # 3. 安装scrapy $ sudo pip install scrapy
windows 下的安装
pip install scrapy # py2
二、基本使用
1. 初始化scrapy项目
我们可以使用命令行初始化一个项目
$ scrapy startproject tutorial
初始化完成后,我们得到下面目录结构
scrapy.cfg: 项目的配置文件 tutorial/: 该项目的python模块, 在这里添加代码 items.py: 项目中的item文件 pipelines.py: 项目中的pipelines文件. settings.py: 项目全局设置文件. spiders/ 爬虫模块目录
我们先看一下scrapy的处理流程

scrapy由下面几个部分组成
spiders:爬虫模块,负责配置需要爬取的数据和爬取规则,以及解析结构化数据items:定义我们需要的结构化数据,使用相当于dictpipelines:管道模块,处理spider模块分析好的结构化数据,如保存入库等middlewares:中间件,相当于钩子,可以对爬取前后做预处理,如修改请求header,url过滤等
我们先来看一个例子,在spiders目录下新建一个模块DmozSpider.py
import scrapy class DmozSpider(scrapy.Spider): # 必须定义 name = "dmoz" # 初始urls start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] # 默认response处理函数 def parse(self, response): # 把结果写到文件中 filename = response.url.split("/")[-2] with open(filename, 'wb') as f: f.write(response.body)
打开终端进入根目录,执行下面命令
$ scrapy crawl dmoz
爬虫开始爬取start_urls定义的url,并输出到文件中,最后输出爬去报告,会输出爬取得统计结果
2018-01-13 10:36:43 [scrapy] INFO: Spider opened 2018-01-13 10:36:43 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2018-01-13 10:36:43 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023 2018-01-13 10:36:44 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None) 2018-01-13 10:36:45 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None) 2018-01-13 10:36:45 [scrapy] INFO: Closing spider (finished) 2018-01-13 10:36:45 [scrapy] INFO: Dumping Scrapy stats: {'downloader/request_bytes': 548, 'downloader/request_count': 2, 'downloader/request_method_count/GET': 2, 'downloader/response_bytes': 16179, 'downloader/response_count': 2, 'downloader/response_status_count/200': 2, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2018, 1, 13, 2, 36, 45, 585113), 'log_count/DEBUG': 3, 'log_count/INFO': 7, 'response_received_count': 2, 'scheduler/dequeued': 2, 'scheduler/dequeued/memory': 2, 'scheduler/enqueued': 2, 'scheduler/enqueued/memory': 2, 'start_time': datetime.datetime(2018, 1, 13, 2, 36, 43, 935790)} 2018-01-13 10:36:45 [scrapy] INFO: Spider closed (finished)
这里我们完成了简单的爬取和保存的操作,会在根目录生成两个文件Resources和Books
三、Scrapy类
如上面的DmozSpider类,爬虫类继承自scrapy.Spider,用于构造Request对象给Scheduler
1. 常用属性与方法
属性
name:爬虫的名字,必须唯一(如果在控制台使用的话,必须配置)start_urls:爬虫初始爬取的链接列表parse:response结果处理函数custom_settings:自定义配置,覆盖settings.py中的默认配置
方法
start_requests:启动爬虫的时候调用,默认是调用make_requests_from_url方法爬取start_urls的链接,可以在这个方法里面定制,如果重写了该方法,start_urls默认将不会被使用,可以在这个方法里面定制一些自定义的url,如登录,从数据库读取url等,本方法返回Request对象make_requests_from_url:默认由start_requests调用,可以配置Request对象,返回Request对象parse:response到达spider的时候默认调用,如果在Request对象配置了callback函数,则不会调用,parse方法可以迭代返回Item或Request对象,如果返回Request对象,则会进行增量爬取
2. Request与Response对象
每个请求都是一个Request对象,Request对象定义了请求的相关信息(url, method, headers, body, cookie, priority)和回调的相关信息(meta, callback, dont_filter, errback),通常由spider迭代返回
其中meta相当于附加变量,可以在请求完成后通过response.meta访问
请求完成后,会通过Response对象发送给spider处理,常用属性有(url, status, headers, body, request, meta, )
详细介绍参考官网
https://doc.scrapy.org/en/latest/topics/request-response.html#request-objects
https://doc.scrapy.org/en/latest/topics/request-response.html#response-objects
四、Selector
上面我们只是爬取了网页的html文本,对于爬虫,我们需要明确我们需要爬取的结构化数据,需要对原文本进行解析,解析的方法通常有下面这些
- 普通文本操作
- 正则表达式:
re - Dom树操作:
BeautifulSoup - XPath选择器:
lxml
scrapy默认支持选择器的功能,自带的选择器构建与lxml之上,并对其进行了改进,使用起来更为简洁明了
1. XPath选择器
XPpath是标准的XML文档查询语言,可以用于查询XML文档中的节点和内容,关于XPath语法,可以参见这里
先看一个例子,通过html或xml构造Selector对象,然后通过xpath查询节点,并解析出节点的内容
from scrapy import Selector html = '<html><body><span>good</span><span>buy</span></body></html>' sel = Selector(text=html) nodes = sel.xpath('//span') for node in nodes: print node.extract()
Selector相当于节点,通过xpath去到子节点集合(SelectorList),可以继续搜索,通过extract方法可以取出节点的值,extract方法也可以作用于SelectorList,对于SelectorList可以通过extract_first取出第一个节点的值
- 通过
text()取出节点的内容 - 通过
@href去除节点属性值(这里是取出href属性的值) - 直接对节点取值,则是输出节点的字符串
2. CSS选择器
除了XPath选择器,scrapy还支持css选择器
html = """ <html> <body> <span>good</span> <span>buy</span> <ul> <li class="video_part_lists">aa<li> <li class="video_part_lists">bb<li> <li class="audio_part_lists">cc<li> <li class="video_part_lists"> <a href="/">主页</a> <li> </ul> </body> </html> """ sel = Selector(text=html) # 选择class为video_part_lists的li节点 lis = sel.css('li.video_part_lists') for li in lis: # 选择a节点的属性 print li.css('a::attr(href)').extract()
五、Item类
上面我们只是爬取了网页的html文本,对于爬虫,我们需要明确我们需要爬取的结构化数据,我们定义一个item存储分类信息,scrapy的item继承自scrapy.Item。注:此处类似于Django中的model可以参考Django官方文档
https://docs.djangoproject.com/en/1.9/ref/models/
from scrapy import Item, Field class DmozItem(Item): title = Field() link = Field() desc = Field()
scrapy.Item的用法与python中的字典用法基本一样,只是做了一些安全限制,属性定义使用Field,这里只是进行了声明,而不是真正的属性,使用的时候通过键值对操作,不支持属性访问
在进行写入本地时一般借用json.dumps 后面会说明抓取的数据保存到MongoDB中
修改DmozSpider的parse方法
class DmozSpider(scrapy.Spider):
...
def parse(self, response):
for sel in response.xpath('//ul/li'):
dmoz_item = DmozItem()
dmoz_item['title'] = sel.xpath('a/text()').extract()
dmoz_item['link'] = sel.xpath('a/@href').extract()
dmoz_item['desc'] = sel.xpath('text()').extract()
print dmoz_item #此处可以使用return 也可使用yield ,使用return 表示不把数据返回给pipelines进行处理
六、Pipeline
spider负责爬虫的配置,item负责声明结构化数据,而对于数据的处理,在scrapy中使用管道的方式进行处理,只要注册过的管道都可以处理item数据(处理,过滤,保存)
下面看看管道的声明方式,这里定义一个预处理管道PretreatmentPipeline.py,如果item的title为None,则设置为空字符串
class PretreatmentPipeline(object):
def process_item(self, item, spider):
if item['title']:
# 不让title为空
item['title'] = ''
return item
再定义一个过滤重复数据的管道DuplicatesPipeline.py,当link重复,则丢弃
from scrapy.exceptions import DropItem
class DuplicatesPipeline(object):
def __init__(self):
self.links = set()
def process_item(self, item, spider):
if item['link'] in self.links:
# 跑出DropItem表示丢掉数据
raise DropItem("Duplicate item found: %s" % item)
else:
self.links.add(item['link'])
return item
最后可以定义一个保存数据的管道,可以把数据保存到数据库中
from scrapy.exceptions import DropItem
from Database import Database
class DatabasePipeline(object):
def __init__(self):
self.db = Database
def process_item(self, item, spider):
if self.db.item_exists(item['id']):
self.db.update_item(item)
else:
self.db.insert_item(item)
定义好管道之后我们需要配置到爬虫上,我们在settings.py模块中配置,后面的数字表示管道的顺序
ITEM_PIPELINES = {
'pipelines.DuplicatesPipeline.DuplicatesPipeline': 1,
'pipelines.PretreatmentPipeline.PretreatmentPipeline': 2,
}
#此处的数字越小越先执行
除了process_item方法外,pipeline还有open_spider和spider_closed两个方法,在爬虫启动和关闭的时候调用
七、Rule
爬虫的通常需要在一个网页里面爬去其他的链接,然后一层一层往下爬,scrapy提供了LinkExtractor类用于对网页链接的提取,使用LinkExtractor需要使用CrawlSpider爬虫类中,CrawlSpider与Spider相比主要是多了rules,可以添加一些规则,先看下面这个例子,爬取链家网的链接
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class LianjiaSpider(CrawlSpider):
name = "lianjia"
allowed_domains = ["lianjia.com"]
start_urls = [
"http://bj.lianjia.com/ershoufang/"
]
rules = [
# 匹配正则表达式,处理下一页
Rule(LinkExtractor(allow=(r'http://bj.lianjia.com/ershoufang/pg\s+$',)), callback='parse_item'),
# 匹配正则表达式,结果加到url列表中,设置请求预处理函数
# Rule(FangLinkExtractor(allow=('http://www.lianjia.com/client/', )), follow=True, process_request='add_cookie')
]
def parse_item(self, response):
# 这里与之前的parse方法一样,处理
pass
1. Rule对象
Role对象有下面参数
link_extractor:链接提取规则callback:link_extractor提取的链接的请求结果的回调cb_kwargs:附加参数,可以在回调函数中获取到follow:表示提取的链接请求完成后是否还要应用当前规则(boolean),如果为False则不会对提取出来的网页进行进一步提取,默认为Falseprocess_links:处理所有的链接的回调,用于处理从response提取的links,通常用于过滤(参数为link列表)process_request:链接请求预处理(添加header或cookie等)
2. LinkExtractor
LinkExtractor常用的参数有:
allow:提取满足正则表达式的链接deny:排除正则表达式匹配的链接(优先级高于allow)allow_domains:允许的域名(可以是str或list)deny_domains:排除的域名(可以是str或list)restrict_xpaths:提取满足XPath选择条件的链接(可以是str或list)restrict_css:提取满足css选择条件的链接(可以是str或list)tags:提取指定标签下的链接,默认从a和area中提取(可以是str或list)attrs:提取满足拥有属性的链接,默认为href(类型为list)unique:链接是否去重(类型为boolean)process_value:值处理函数(优先级大于allow)
关于LinkExtractor的详细参数介绍见官网
注意:如果使用rules规则,请不要覆盖或重写
CrawlSpider的parse方法,否则规则会失效,可以使用parse_start_urls方法
八、Middleware
从最开始的流程图可以看到,爬去一个资源链接的流程,首先我们配置spider相关的爬取信息,在启动爬取实例后,scrapy_engine从Spider取出Request(经过SpiderMiddleware),然后丢给Scheduler(经过SchedulerMiddleware),Scheduler接着把请求丢给Downloader(经过DownloadMiddlware),Downloader把请求结果丢还给Spider,然后Spider把分析好的结构化数据丢给Pipeline,Pipeline进行分析保存或丢弃,这里面有4个角色
scrapy有下面三种middlewares
SpiderMiddleware:通常用于配置爬虫相关的属性,引用链接设置,Url长度限制,成功状态码设置,爬取深度设置,爬去优先级设置等DownloadMiddlware:通常用于处理下载之前的预处理,如请求Header(Cookie,User-Agent),登录验证处理,重定向处理,代理服务器处理,超时处理,重试处理等SchedulerMiddleware(已经废弃):为了简化框架,调度器中间件已经被废弃,使用另外两个中间件已经够用了
1. SpiderMiddleware
爬虫中间件有下面几个方法
process_spider_input:当response通过spider的时候被调用,返回None(继续给其他中间件处理)或抛出异常(不会给其他中间件处理,当成异常处理)process_spider_output:当spider有item或Request输出的时候调动process_spider_exception:处理出现异常时调用process_start_requests:spider当开始请求Request的时候调用
下面是scrapy自带的一些中间件(在scrapy.spidermiddlewares命名空间下)
- UrlLengthMiddleware
- RefererMiddleware
- OffsiteMiddleware
- HttpErrorMiddleware
- DepthMiddleware
2. DownloaderMiddleware
下载中间件有下面几个方法
process_request:请求通过下载器的时候调用process_response:请求完成后调用process_exception:请求发生异常时调用from_crawler:从crawler构造的时候调用from_settings:从settings构造的时候调用
更多详细的参数解释见这里
在爬取网页的时候,使用不同的User-Agent可以提高请求的随机性,定义一个随机设置User-Agent的中间件RandomUserAgentMiddleware
# -*- coding: utf-8 -*-
# Define here the models for your spider middleware
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/spider-middleware.html
from scrapy import signals
class RenrenSpiderMiddleware(object):
# Not all methods need to be defined. If a method is not defined,
# scrapy acts as if the spider middleware does not modify the
# passed objects.
@classmethod
def from_crawler(cls, crawler):
# This method is used by Scrapy to create your spiders.
s = cls()
crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
return s
def process_spider_input(self, response, spider):
# Called for each response that goes through the spider
# middleware and into the spider.
# Should return None or raise an exception.
return None
def process_spider_output(self, response, result, spider):
# Called with the results returned from the Spider, after
# it has processed the response.
# Must return an iterable of Request, dict or Item objects.
for i in result:
yield i
def process_spider_exception(self, response, exception, spider):
# Called when a spider or process_spider_input() method
# (from other spider middleware) raises an exception.
# Should return either None or an iterable of Response, dict
# or Item objects.
pass
def process_start_requests(self, start_requests, spider):
# Called with the start requests of the spider, and works
# similarly to the process_spider_output() method, except
# that it doesn’t have a response associated.
# Must return only requests (not items).
for r in start_requests:
yield r
def spider_opened(self, spider):
spider.logger.info('Spider opened: %s' % spider.name)
在settings.py设置USER_AGENTS参数
USER_AGENTS = [
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
"Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
"Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
"Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
"Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
"Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
"Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
"Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
]
#此处可添加IP代理,防止我们的IP被封
PROXIES = [
{"ip_port" :"121.42.140.113:16816", "user_passwd" : "xxxxxxxx:xxxx"}, #"xxxxxxxx:xxxx" 表示账号密码
{'ip_port':'153.35.206.77:8118','user_passwd':''},
{"ip_port":'124.92.199.28:80','user_passwd':''},
]
配置爬虫中间件的方式与pipeline类似,第二个参数表示优先级
# 配置爬虫中间件
SPIDER_MIDDLEWARES = {
'myproject.middlewares.CustomSpiderMiddleware': 543,
# 如果想禁用默认的中间件的话,可以设置其优先级为None
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': None,
}
# 配置下载中间件
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.RandomUserAgentMiddleware': 543,
'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
}
#后面的案例中会有使用到
九、缓存
scrapy默认已经自带了缓存的功能,通常我们只需要配置即可,打开settings.py
# 打开缓存 HTTPCACHE_ENABLED = True # 设置缓存过期时间(单位:秒) #HTTPCACHE_EXPIRATION_SECS = 0 # 缓存路径(默认为:.scrapy/httpcache) HTTPCACHE_DIR = 'httpcache' # 忽略的状态码 HTTPCACHE_IGNORE_HTTP_CODES = [] # 缓存模式(文件缓存) HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage' #这里暂时使用的比较少
十、多线程
scrapy网络请求是基于Twisted,而Twisted默认支持多线程,而且scrapy默认也是通过多线程请求的,并且支持多核CPU的并发,通常只需要配置一些参数即可
# 默认Item并发数:100 CONCURRENT_ITEMS = 100 # 默认Request并发数:16 CONCURRENT_REQUESTS = 16 # 默认每个域名的并发数:8 CONCURRENT_REQUESTS_PER_DOMAIN = 8 # 每个IP的最大并发数:0表示忽略 CONCURRENT_REQUESTS_PER_IP = 0
总结
scrapy虽然是最有名的python爬虫框架,但是还是有很多不足,例如,item不能单独配置给制定的pipeline,每一个爬取的所有item都会走遍所有的管道,需要在管道里面去判断不同类型的item,如果在pipelines和items比较多的项目,将会让项目变得非常臃肿

浙公网安备 33010602011771号