摘要:
scrapy是通过hashlib算法转成长度一致的url,然后再通过set集合去重的,有兴趣看源码 去重的中间件在scrapy 的 dupefilters.py文件中: --> #去重器 -->有个函数叫 这个是调度器 每次执行之前都会调用到 request_seen(request) 这个方法 这 阅读全文
摘要:
首先把爬虫写好后————》在同级文件夹新建一个文件夹(类似于日志)info————》接下来打开命令行cd到这个爬虫 ————》输入命令: 暂停之后需要重启第一行命令:scrapy crawl spider -s JOBDIR=info/001 尽量在命令行上做 阅读全文
摘要:
基本的点击与发送 动态加载的数据获取 阅读全文