记一次有意思的爬虫

本人在之前实习的时候就接触过爬虫，到现在陆陆续续爬过一些东西

用WebCollector爬过微信公众号文章、百度新闻、百度BBS等，

用HtmlUnit爬过域名-IP关系，目前正用原生HtppClient爬过一些网站的文件。

最近做实验又需要爬一些数据，某xun没有难度，分析了下HTTP链接，

找到真正的请求的HTTP请求，直接爬得到JSON格式数据，就是我爬的有点凶。

因为数据不是很多，我想速战速决，单IP十个线程，第一次是半夜爬的，没封，爬了1万条；

第二次是下午爬的，两万条只爬了1万条左右，被封了。

今天下午爬某du，其实就是我提交个数据，某度给我返回个yes or no就行了。

页面上明明看得到数据，既不是图片，也不是文字（鼠标选不中），源代码里也没有数据。

分析了各种链接，也没有额外获取数据的HTML、JS请求。

最后在源代码里发现了蹊跷，两种不同返回结果如下：

之前一直找汉字去了，所以没找到；应该是他们根据这两种返回结果，用CSS做了处理。

也是第一次遇到这种情况，比较有意思，哈哈。

posted on 2017-11-14 16:51 WOTGL 阅读(257) 评论(0) 收藏举报

刷新页面返回顶部