2017 年 11月 9 日随笔档案 - 少年努力吧

2017年11月9日

摘要：这是一款基于谷歌搜索引擎的自动化爬虫。爬虫介绍爬虫大体机制就是：先进行一次谷歌搜索，将结果解析为特定格式，然后再提供给exp使用。大家可以尝试使用–help来列出所有参数。这个项目笔者会持续更新，以后再添加新的exp进行升级。此外，它会利用google_parsers模块去构建exp解析搜阅读全文

posted @ 2017-11-09 18:39 少年努力吧阅读(840) 评论(0) 推荐(0) 编辑

国内外电商平台反爬虫机制报告

摘要：一阶爬虫（技术篇）应用场景一：静态结果页，无频率限制，无黑名单。攻：直接采用scrapy爬取防：nginx层写lua脚本,将爬虫IP加入黑名单，屏蔽一段时间（不提示时间）应用场景二：静态结果页，无频率限制，有黑名单攻：使用代理（http proxy、VPN），随机user-agent 防：阅读全文

posted @ 2017-11-09 14:49 少年努力吧阅读(528) 评论(0) 推荐(0) 编辑

公告