摘要: scrapy是通过hashlib算法转成长度一致的url,然后再通过set集合去重的,有兴趣看源码 去重的中间件在scrapy 的 dupefilters.py文件中: --> #去重器 -->有个函数叫 这个是调度器 每次执行之前都会调用到 request_seen(request) 这个方法 这 阅读全文
posted @ 2018-10-03 23:55 Caionk 阅读(2787) 评论(0) 推荐(0) 编辑
摘要: 首先把爬虫写好后————》在同级文件夹新建一个文件夹(类似于日志)info————》接下来打开命令行cd到这个爬虫 ————》输入命令: 暂停之后需要重启第一行命令:scrapy crawl spider -s JOBDIR=info/001 尽量在命令行上做 阅读全文
posted @ 2018-10-03 23:22 Caionk 阅读(561) 评论(0) 推荐(0) 编辑
摘要: 基本的点击与发送 动态加载的数据获取 阅读全文
posted @ 2018-10-03 22:53 Caionk 阅读(305) 评论(0) 推荐(0) 编辑