周五了,发给大家个好玩的东西
今天在检查iis日志的时候发觉这个爬虫抓取我的博客频道的频率一天竟然高达 1000次!所以搜索了它,发觉了这么好玩的一个东西。
他是一群来自西雅图的人试图如何让互联网的数据更加公开。他们提供了互联网的一个索引(可以BT下载),重达3.2G,非压缩版14G,如果你正要准备做一个垃圾引擎,可以尝试下载下来用用。当然你也可以屏蔽这个搜索引擎,
User-agent: dotbot
Disallow: /
你还可以看到他对互联网的总体http状态统计,75%是200,404,403占8%。