.Tang

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2019年4月28日

摘要: # -*- coding: utf-8 -*- import scrapy import urllib import json from copy import deepcopy class JdSpider(scrapy.Spider): name = 'jd' allowed_domains = ['jd.com', 'p.3.cn'] start_urls ... 阅读全文
posted @ 2019-04-28 22:26 .Tang 阅读(305) 评论(0) 推荐(0) 编辑

摘要: hash 阅读全文
posted @ 2019-04-28 17:17 .Tang 阅读(221) 评论(0) 推荐(0) 编辑

摘要: scrapy_redis的大概思路:将爬取的url通过 hashlin.sha1生成唯一的指纹,持久化存入redis,之后的url判断是否已经存在,达到去重的效果 下载scrapy-redis settings 阅读全文
posted @ 2019-04-28 16:08 .Tang 阅读(238) 评论(0) 推荐(0) 编辑

摘要: xpath 响应的同类数据但是格式不同,比如 此时取文本可以这样取 响应的同类数据但是格式不同,比如 完善url 阅读全文
posted @ 2019-04-28 14:01 .Tang 阅读(218) 评论(0) 推荐(0) 编辑