2018 年 10月 3 日随笔档案 - Caionk

2018年10月3日

摘要： scrapy是通过hashlib算法转成长度一致的url，然后再通过set集合去重的，有兴趣看源码去重的中间件在scrapy 的 dupefilters.py文件中： --> #去重器 -->有个函数叫这个是调度器每次执行之前都会调用到 request_seen(request) 这个方法这阅读全文

posted @ 2018-10-03 23:55 Caionk 阅读(2787) 评论(0) 推荐(0) 编辑

scrapy的暂停与重启

摘要：首先把爬虫写好后————》在同级文件夹新建一个文件夹（类似于日志）info————》接下来打开命令行cd到这个爬虫 ————》输入命令：暂停之后需要重启第一行命令：scrapy crawl spider -s JOBDIR=info/001 尽量在命令行上做阅读全文

posted @ 2018-10-03 23:22 Caionk 阅读(561) 评论(0) 推荐(0) 编辑

selenium的基础知识点

摘要：基本的点击与发送动态加载的数据获取阅读全文

posted @ 2018-10-03 22:53 Caionk 阅读(305) 评论(0) 推荐(0) 编辑

ArtisticMonk

公告