2018年6月30日

scrapy分布式爬虫设置

摘要: #启用Redis调度存储请求队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" #确保所有的爬虫通过Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" #默认请求序列化使 阅读全文

posted @ 2018-06-30 12:16 么么唧唧 阅读(670) 评论(0) 推荐(0) 编辑

scrapy spider及其子类

摘要: 1.spider传参 在运行 crawl 时添加 -a 可以传递Spider参数: Spider在构造器(constructor)中获取参数: 2.class scrapy.spider.Spider 常用方法:name allowed_domains start_urls custom_setti 阅读全文

posted @ 2018-06-30 12:14 么么唧唧 阅读(203) 评论(0) 推荐(0) 编辑

导航