摘要:
# -*- coding: utf-8 -*- import scrapy import urllib import json from copy import deepcopy class JdSpider(scrapy.Spider): name = 'jd' allowed_domains = ['jd.com', 'p.3.cn'] start_urls ... 阅读全文
摘要:
# -*- coding: utf-8 -*- import scrapy import urllib import json from copy import deepcopy class JdSpider(scrapy.Spider): name = 'jd' allowed_domains = ['jd.com', 'p.3.cn'] start_urls ... 阅读全文
摘要:
scrapy_redis的大概思路:将爬取的url通过 hashlin.sha1生成唯一的指纹,持久化存入redis,之后的url判断是否已经存在,达到去重的效果 下载scrapy-redis settings 阅读全文
摘要:
xpath 响应的同类数据但是格式不同,比如 此时取文本可以这样取 响应的同类数据但是格式不同,比如 完善url 阅读全文
|