【故障公告】它(变异的百度蜘蛛)又来了,雪上加霜又加盐的三月

今天12点左右,它又来了,熟悉的恐怖身影(116开头IP段、山西的某个城市),不是cc攻击,是那只令人“敬畏”的蜘蛛。

2022年4月3日,它的首次来访在园子里掀起狂风暴浪,数据库连接数过万,负载均衡带宽跑满,带宽扩容50%依然跑满,当时我们通过限制同一个IP每天的请求数侥幸躲过。

2022年5月4日,它如同吃了兴奋剂般变得格外疯狂,由于触发IP请求数限制被重定向到登录站点,但它那龙卷风般的天量请求直接冲垮登录站点,无奈之下,我们屏蔽了这个IP网段。

它有成千上万的IP,我们屏蔽的IP网段只有255个IP,看索引量没有大的变化,我们天真地以为影响不大,却不知因此得罪了中文互联网的老大。

得罪老大的后果就是:园子遭遇2022年最悲惨的境遇——被它拉黑,在搜索结果中对园子全面降权,让我们切身体会老大的厉害。

后悔自己的天真,感叹老大的厉害,我们亡羊补牢以求老大网开一面——放开了被屏蔽的IP网段。

解除屏蔽后观察了1-2月,搜索流量并没有明显的回升,看来这次真的是惹怒了老大,我们会后悔莫及,见识了真正霸气的老大不会给你悔过的机会。

在观察期间,我们有了一个惊人的发现——每天光临园子最多的竟然是它,每天竟然访问1000多万次,园子的博文总数也就在1000万篇左右,日理万机的它竟然会每天看园子的每篇博文,难道准备以后改行当程序员?

接着,我们又有一个发现,每天千万次的访问竟然消耗了园子近一半的带宽费用,对于囊中羞涩的园子来说有点吃不消,每天让它看园子的每篇博文,还得给它倒贴带宽费,而且在搜索排名中继续被拉黑着。

于是,我们采取了一个应对之策,专门提供一个负载均衡给它访问并限制了峰值带宽,这样不仅可以控制带宽费用,而且在它发飙的时候可以减少宕机。

从去年到今天中午,它被我们这个对应之策通过专用负载均衡关进笼子里,即使被限制了带宽,它也会很多时候给园子带来3000-4000的QPS,所以来个cc攻击,园子就格外难以撑住。

今天中午,恐怖的事情发生了,它开始不遵守针对搜索引擎的dns解析,从笼子里跑出来了!

近一年后它依然如此彪悍,如此毫无忌惮,园子依然扛不住,除非屏蔽 IP 段,但又不敢再次得罪依然威风凛凛的老大,目前只是临时限制它所访问的负载均衡的带宽,但这会让访问这些负载均衡的正常用户受影响。

非常抱歉,这个突发问题给您带来了麻烦,我们正在进一步想办法,争取找到更好的解决方法。

【16:30】刚刚试着放开一些带宽,数据库连接数很快飙升,这种并发疯狂爬取不同博文,缓存发挥不了作用。

【16:50】这只蜘蛛今天已疯,我们不想陪着疯,已暂时屏蔽去年屏蔽过的那个网段,屏蔽后立马恢复正常。如此疯狂的爬取已经和cc攻击没什么区别了。

【19:15】今年2月,我们通过“百度搜索资源平台-反馈中心”反馈“抓取频次高的离谱,百度蜘蛛每秒请求数(QPS)竟然高达4000多”问题,百度客户竟然回复让我们“自查整改”,吓得我们再也不敢向百度客服反馈问题了。

【19:30】在被全面降权后,我们被自己的经历惊呆了,百度不打一声招呼随手一掐,每天几百万的搜索流量就没了。如果是一家依赖搜索流量的公司,百度可以随时要这家公司的命,园子因为不依赖百度流量而躲过一劫。

【20:10】又想起一则百度蜘蛛的故事,那是在2021年,百度蜘蛛模拟不同移动端屏幕尺寸的用户每天以超过百万的 UV 访问园子,但 UA 却不带百度蜘蛛的标识(使用的是正常用户移动端浏览器的UA),造成GA这样的访问统计软件识别不出来,从而严重干扰了统计数据的准确性。

posted @ 2023-03-25 16:13  博客园团队  阅读(20190)  评论(109编辑  收藏  举报