随笔分类 - 爬虫
摘要:闲来无事,登录了练习平台找了个简单题练手,涉及到了新的内容,记录一下。 现象: 网页和charles重放可以拿到返回结果,通过postman和代码请求403或者其他 原因 后端进行了http2.0请求判断,非http2.0不通过 如何分辨 http1.1:以百度为例,在source-> reques
阅读全文
摘要:通过flask+mongo+requests实现一个主从分布式爬虫 一:分布式爬虫介绍 1、对等分布式:每台机器上的的爬虫都一致 无论那台机器掉线,都不会影响其他机器的爬虫 可以根据需求动态的增/删计算机和爬虫的数量 试用场景:非递进关系网站 2、主从分布式:不同的机器类型做不同的动作,例如主机器只
阅读全文