scrapy之spider模块
scrapy中的spider的用法 :
1、scrapy命令行可以传参数给构造器
scrapy crawl myspider -a category=electronics
构造器接收传入的参数
import scrapy class MySpider(Spider): name = 'myspider' def __init__(self, category=None, *args, **kwargs): super(MySpider, self).__init__(*args, **kwargs) self.start_urls = ['http://www.example.com/categories/%s' % category] # ...
2、spider.Spider: 在系统生成的脚本或自己编写的脚本都必须要继承Spider类,功能是调用start_urls/start_requests并将结果给parse处理
allowd_domains:当offsiteMiddleware启用时,不在其内的域名不会被爬取
3、spider默认的运行规则:
1、spider启动
2、运行start_requests
(),此方法使用get方法请求url,仅会被scrapy调用一次
3、start_requests调用make_requests_from_url
(url)
4、start_urls中的url被请求,结果返回给parse 函数处理
scrapy默认使用get方法请求url,那当我要post登陆网站,再爬取数据,怎么办呢?
可以通过改写start_requests()方法来实现,改写了scrapy默认的运行规则
def start_requests(self): return [scrapy.FormRequest("http://www.example.com/login", formdata={'user': 'john', 'pass': 'secret'}, callback=self.logged_in)] def logged_in(self, response): # here you would extract links to follow and return Requests for # each of them, with another callback pass
4、parser():是scrapy 处理response的默认方法,负责返回处理的数据
scrapy-reids:
1、修改settings
SCHEDULER = "scrapy_redis.scheduler.Scheduler" DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 300 } REDIS_URL = 'redis://user:pass@hostname:9001'