摘要: 这是一款基于谷歌搜索引擎的自动化爬虫。 爬虫介绍 爬虫大体机制就是: 先进行一次谷歌搜索,将结果解析为特定格式,然后再提供给exp使用。 大家可以尝试使用–help来列出所有参数。 这个项目笔者会持续更新,以后再添加新的exp进行升级。此外,它会利用google_parsers模块去构建exp解析搜 阅读全文
posted @ 2017-11-09 18:39 少年努力吧 阅读(840) 评论(0) 推荐(0) 编辑
摘要: 一阶爬虫(技术篇) 应用场景一:静态结果页,无频率限制,无黑名单。 攻:直接采用scrapy爬取 防:nginx层写lua脚本,将爬虫IP加入黑名单,屏蔽一段时间(不提示时间) 应用场景二:静态结果页,无频率限制,有黑名单 攻:使用代理(http proxy、VPN),随机user-agent 防: 阅读全文
posted @ 2017-11-09 14:49 少年努力吧 阅读(528) 评论(0) 推荐(0) 编辑