scrapy 错误:Missing scheme in request url: %s' % self._url
先说报错原因:使用了和start_urls
同名的参数
我通过scral crawl projename -a start_urls=http:example.com
来传start_urls,然后想在项目中初始化spider类的时候,添加抓取URL,代码如下:
class xxxxSpider(CrawlSpider):
name = 'xxxx'
allowed_domains = ['xxxx.gov.cn']
start_urls = [
]
rules = (
Rule(LinkExtractor(allow=(r'page=\d+',))),
Rule(LinkExtractor(allow=('unid',)), callback='parse_item', follow=False),
)
def __init__(self, *a, **kw):
self.start_urls.append(kw.get('start_url'))
super(CrawlSpider, self).__init__(*a, **kw)
self._compile_rules()
按理来说,并没有覆盖self.start_urls
,但是无法通过校验,启动时报错
raise ValueError('Missing scheme in request url: %s' % self._url)
解决办法:把参数名改成别的就行了,不要使用start_urls
。我猜应该是项目初始化的过程中使用了这个名字作为参数,然后我给他覆盖了。
擅长爬虫、SEO、文本分类领域,交流微信 :z328134421