摘要: 使用分布式爬取,我的思路是这样的,一台机器爬取指定的url,存到缓存,爬url比解析总是要快吧,一页都有好几十的那种,就算每台机器的速度都一样,爬一次的url够几台机器同时去解析的了 接下来就是我们的解析了: 因为这个网站需要的数据是动态加载的,我js比较差,也不想去找函数,我就直接使用splash 阅读全文
posted @ 2019-01-11 16:21 Caionk 阅读(680) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*- import redis from hashlib import md5 class SimpleHash(object): def __init__(self, cap, seed): self.cap = cap self.seed = seed def hash(self, value): ... 阅读全文
posted @ 2019-01-11 16:06 Caionk 阅读(251) 评论(0) 推荐(0) 编辑