网站seo优化站长工具提交常见搜索引擎蜘蛛和垃圾蜘蛛屏蔽robots.txt文件示例一篇文章就够了!
最近查看网站服务器访问日志,想着统计下蜘蛛爬行记录,看看都有哪些搜索引擎蜘蛛经常关顾,故而好进行相应的对策改变。都知道搜索引擎对一个网站很重要,是很多网站重要的流量来源。熟悉各大搜索引擎的蜘蛛就显得必要。
站长们做网站SEO优化的通常会说蜘蛛爬得越勤快,网页收录也快。同时垃圾蜘蛛只会消耗大量服务器资源,严重的造成服务器宕机。通过分析网站访问日志:查看访问者的user-agent,我们就可以了解哪些搜索蜘蛛过来爬行过网站页面了,下面整理一下国内常用的一些搜索蜘蛛
1、 百度蜘蛛:Baiduspider Baiduspider-image baiduboxapp Baiduspider-render
2、 谷歌蜘蛛:Googlebot (很勤奋的蜘蛛) Googlebot-Image Google-Read-Aloud Googlebot-Video
谷歌中文站长平台 >> 需要FQ
3、 360蜘蛛:360Spider (比较懒的蜘蛛)
4、 搜狗蜘蛛:SogouSpider, Sogou web spider
5、 神马蜘蛛:YisouSpider (UC浏览器默认搜索sm.cn的蜘蛛)
6、 必应蜘蛛:bingbot BingPreview
7、 有道蜘蛛:YoudaoBot,YodaoBot(找不到)
8、 MSN蜘蛛:msnbot,msnbot-media
9、 雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!(找不到)
10、 Yandex蜘蛛:YandexBot (俄罗斯搜索引擎)
Oops, Captcha! >> 需要FQ
11、 DNSPOD监控蜘蛛:DNSPod-Monitor
12、 MJ12bot:MJ12bot (英国SEO分析页面蜘蛛)
13、 SEMrush:SemrushBot (美国SEO综合分析网站的蜘蛛)
14、 头条蜘蛛:Bytespider (今日头条旗下:高频抓取 被很多站长封禁后 有所改善)
15、 华为蜘蛛:AspiegelBot ( 华为旗下Aspiegel公司 疯狂高频爬行无节制 )
对于国内中文用户为主的站长主要使用 百度、Sogou搜狗、Bing、360搜索、神马、头条
对于大陆中文网站站长主要是 百度、360搜索和头条搜索,其它的可有可无
若是网站客户来源,手机端特别多,建议神马的不要禁止,毕竟UC的用户也有不少。
特别推荐屏蔽,甚至是拉进黑名单的:Yandex MJ12bot SEMrush,至于AspiegelBot需要看日志在决定,搞完之后能省下来不少性能和流量。
同时,我还发现chatGPT的蜘蛛GPTBot也是疯狂爬取网站内容,这种爬取内容不能带来流量的爬虫,一律禁止为好。
我为大家整理好了一份比较全的robots.txt文件,直接放在网站根目录下面robots.txt文件里(新建一个保存):
User-agent: GPTBot
Disallow: /
User-agent: Baiduspider
Allow: /
User-agent: Baiduspider-render
Allow: /
User-agent: Baiduspider-image
Allow: /
User-agent: baiduboxapp
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Google-Read-Aloud
Allow: /
User-agent: YandexBot
Allow: /
User-agent: ia_archiver
Allow: /
User-agent: MSNBot
Allow: /
User-agent: bingbot
Allow: /
User-agent: BingPreview
Allow: /
User-agent: YandexBot
Allow: /
User-agent: SemrushBot
Allow: /
User-agent: Baiduspider-image
Allow: /
User-agent: YoudaoBot
Allow: /
User-agent: SogouSpider
Allow: /
User-agent: Sogou web spider
Allow: /
User-agent: Sogou inst spider
Allow: /
User-agent: Sogou spider2
Allow: /
User-agent: Sogou blog
Allow: /
User-agent: Sogou News Spider
Allow: /
User-agent: Sogou Orion spider
Allow: /
User-agent: ChinasoSpider
Allow: /
User-agent: Sosospider
Allow: /
User-agent: YisouSpider
Allow: /
User-agent: EasouSpider
Allow: /
User-agent: JikeSpider
Allow: /
User-agent: 360spider
Allow: /
User-agent: Bytespider
Allow: /
User-agent: AspiegelBot
Allow: /
User-agent: *
Disallow: /
上面是个人在做网站seo优化的一点总结,希望对你有帮助,目前我的网站说文解字www.shuowen5.com 康熙字典www.kangxizidian5.com大量蜘蛛来爬取内容,能够正常收录就好,原则就是:给网站带来流量的蜘蛛都允许,不能带来流量的蜘蛛屏蔽掉。
本文来自博客园,作者:大象已无形,转载请注明原文链接:https://www.cnblogs.com/mmm/p/18457828/zhanzhang_seo_robots-txt