摘要: - 增量式 - 概念:用于监测网站数据更新的情况。 - 核心机制:去重。redis的set实现去重- 总结反爬机制: - robots - UA伪装 - 验证码 - 代理 - cookie - 动态变化的请求参数 - js加密 - js混淆 - 图片懒加载 - 动态数据的捕获 - seleium:规 阅读全文
posted @ 2020-03-08 18:45 干it的小张 阅读(158) 评论(0) 推荐(0) 编辑
摘要: - 分布式 - 概念:需要搭建一个分布式的机群,然后在机群的每一台电脑中执行同一组程序,让其对某一个网站的数据进行联合分布爬取。 - 原生的scrapy框架是不可以实现分布式? - 因为调度器不可以被共享 - 管道不可以被共享 - 如何实现分布式? - scrapy+scrapy_redis实现分布 阅读全文
posted @ 2020-03-08 12:33 干it的小张 阅读(198) 评论(0) 推荐(0) 编辑