2019 年 1月 11 日随笔档案 - Caionk

2019年1月11日

摘要：使用分布式爬取，我的思路是这样的，一台机器爬取指定的url，存到缓存，爬url比解析总是要快吧，一页都有好几十的那种，就算每台机器的速度都一样，爬一次的url够几台机器同时去解析的了接下来就是我们的解析了：因为这个网站需要的数据是动态加载的，我js比较差，也不想去找函数，我就直接使用splash 阅读全文

posted @ 2019-01-11 16:21 Caionk 阅读(682) 评论(0) 推荐(0) 编辑

布隆过滤的代码

摘要： # -*- coding: utf-8 -*- import redis from hashlib import md5 class SimpleHash(object): def __init__(self, cap, seed): self.cap = cap self.seed = seed def hash(self, value): ... 阅读全文

posted @ 2019-01-11 16:06 Caionk 阅读(255) 评论(0) 推荐(0) 编辑

ArtisticMonk

公告