爬虫检测:https://www.wbolt.com/tools/spider-tool
https://www.pdflibr.com/crawler/list/search-engine
1.DataForSeoBot
"GET /en/stores/hertz HTTP/1.1" 200 165003 "-" "Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)"
DataForSEO 网站的蜘蛛。由于访问速率太大,建议小型网站进行屏蔽。
自从我们推出 DataForSEO 以来,我们的使命就是通过向世界各地的 SEO 爱好者和专业人士提供高质量的数据来公平竞争。
DataForSEO 机器人是确保 SEO 社区的每个成员 – 无论口袋大小都可以访问 Google 排名算法的核心元素。我们正在开发网络上最大的可用反向链接数据库,包括您在内的社区每个成员都可以使用该数据库并从中受益。
2.AhrefsBot
"GET /en/stores/ecco?r=ref-BLOG HTTP/1.1" 200 261464 "-" "Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)"
AhrefsBot 是国外网站的一个蜘蛛程序,那么 Ahrefs 是什么网站呢,这个是国外一个网络营销类的网站,有点类似于国内的5118、站长网之类,在 SEO 界比较有名的。AhrefsBot数据库里面有超过12万亿条链接,每天它就在不断的执行和监控Ahrefs的在线营销活动,每24小时就要访问超过60亿个网页,每15-30分钟就要更新一次索引。
根据一项调查显示,AhrefsBot是仅次于谷歌蜘蛛(Googlebot)的世界第二大活跃蜘蛛爬虫程序。
AhrefsBot 会增加你服务器的负担外,并不会对你的网站造成什么影响,它既不会触发网站上的广告,也不会在统计中增加流量。建议屏蔽 AhrefsBot
3.YandexBot
Yandex 搜索引擎如何加快收录:https://answers.fuyeor.com/zh-hans/question/5929
"GET /en/stores/vans HTTP/1.1" 200 153778 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0"
俄罗斯搜索巨头Yandex的蜘蛛
使用 CDN 加速:
若你的网站不在俄罗斯境内,则 YandexBot 在爬取时需要耗费更多时间,或者无法加载。同时 Yandex 会认为你的网站不易访问,从而减小收录量。此时我们需要使用境外 CDN 加速,针对俄罗斯地区的访问速度进行优化。
多发外链:
若你的网站使用 site 命令查询仅有几个主页,没有收录内页;或者你的网站是个新网站,需要快速收录,使用常规的站长提交是缓慢的,可能要等待几十天。此时想要做到快速收录的方法就是在高权重的网站或俄罗斯 .ru 域名的网站上发几条外链,新站点、子域名一般隔天就能收录(在不做其他任何操作的情况下,包括不去网站管理员提交),老站点可以快速收录内页。
YandexRenderResourcesBot
"Mozilla/5.0 (compatible; YandexRenderResourcesBot/1.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0"
4.AdsBot-Google-Mobile
https://developers.google.cn/search/docs/crawling-indexing/overview-google-crawlers?hl=zh-cn
检查移动网页广告质量。 忽略 robots.txt 中的全局用户代理 (*
)。
"GET /en/deal/7626 HTTP/1.1" 404 45768 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.6533.119 Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)"
5.SeznamBot
搜索引擎
UserAgent信息为:
"GET /en/stores/perriconemd HTTP/1.1" 200 256842 "-" "Mozilla/5.0 (compatible; SeznamBot/4.0; +http://napoveda.seznam.cz/seznambot-intro/)"
6.PetalBot
"GET /en/stores/hokaoneone HTTP/1.1" 200 88814 "https://47.57.238.122/en/firstorderexclusive" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
PetalBot 是华为自研搜索引擎的爬虫,叫做花瓣蜘蛛,将来或许也会在国内再杀出一个搜索引擎。现华为花瓣搜索引擎仅对欧洲用户开放。
PetalBot 符合 Internet 机器人协议。您可以使用 robots.txt 文件完全阻止 PetalBot 访问您的网站,或阻止 PetalBot 访问您网站上的某些文件。
为了获得对目标资源更好的检索结果,PetalBot 需要保持一定程度的网站爬网。我们力求不给网站带来不合理的负担,我们将根据服务器容量,网站质量和网站更新等综合因素进行调整。如果 PetalBot 的访问有任何不合理的行为,请将您的疑虑发送至 search@aspiegel.com。
7.AwarioSmartBot
不知道什么爬虫,可以屏蔽
"GET /robots.txt HTTP/1.1" 200 556 "-" "AwarioSmartBot/1.0 (+https://awario.com/bots.html; bots@awario.com)"
8.PerplexityBot
AI搜索引擎:https://new.qq.com/rain/a/20240620A082P100?suid=&media_id=
[28/Aug/2024:00:17:16 +0800]-[207.199.190.34]- "GET /en/stores/vitacostus HTTP/1.1" 200 284563 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://docs.perplexity.ai/docs/perplexity-bot)"
9.Impact Radius Compliance Bot
国内官网:https://impact.com.cn/
"GET /r/x8z63h HTTP/1.1" 302 15 "-" "Mozilla/5.0 (compatible;Impact Radius Compliance Bot) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.6045.214 Safari/537.36"
IMP是一个国外的英文联盟,全称是Impact Radius。一般简称IMP,或者叫impact
IMP属于SaaS形式的联盟,和其他常见的Awin、CJ等不一样。同时,它还有个特征就是,在“联盟 - 商家 - AFF”这个三角关系中,它是更偏向于商家的。所以,我们AFF在IMP这个联盟里,更贴近于“弱势角色”。 据其他圈内人士的分析:IMP和广告商属于非常弱的联盟管理关系,甚至怀疑,它有没有好好监管sales tracking。理由是:同一家广告商,用同一个网站流量,反复对照测试了好几次,虽然佣金比例条款一致,但是CJ就是imp佣金多,转换率高。
按照Impact自己的说法,他们是Saas平台,所以更注重广告主端的服务。 而且他们收取的是广告主的服务费,所以下游这边比较松散
10.SurdotlyBot
应该可以屏蔽,量太少先放着
"GET / HTTP/1.1" 200 536309 "-" "Mozilla/5.0 (compatible; SurdotlyBot/1.0; +http://sur.ly/bot.html)"
11.BitSightBot
可以屏蔽
"OPTIONS /guest-api/rest/get-advertisement?slug=index_navigation&_=1724789725563 HTTP/1.1" 200 0 "https://click.rebatesme.com/" "Mozilla/5.0 (compatible; BitSightBot/1.0)
12.CrsspxlBot
可以屏蔽
"GET /en/r/sqx06m HTTP/1.1" 302 0 "-" "Mozilla/5.0 (compatible; CrsspxlBot; +http://www.crosspixel.net/)"
13.DotBot
"GET /en/deal/3749 HTTP/1.1" 404 114 "-" "Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)"
DotBot是Moz的网络爬虫程序,Moz旗下链接分析网站opensiteexplorer专门用来分析网站SEO外链数据,BotBot蜘蛛爬虫就是为Moz服务,在互联网上抓取大量的网页进行各种数据分析。
如果我们不希望Dotbot抓取自己的网站,可以使用robots.txt进行屏蔽。DotBot遵robots.txt协议
14.Mail.RU_Bot
搜索引擎()
"GET /en/stores/steepandcheap HTTP/1.1" 200 265600 "-" "Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +https://help.mail.ru/webmaster/indexing/robots)"
15.DuckDuckBot
"GET / HTTP/1.1" 200 536310 "https://www.rebatesme.com/" "DuckDuckBot/1.1; (+http://duckduckgo.com/duckduckbot.html)"
搜索引擎
DuckDuckBot是DuckDuckGo的网络爬虫,它提供 “网络浏览器上的无缝隐私保护”
16.PanguBot
"GET /mobile/coupon/1420495 HTTP/1.1" 302 15 "https://www.rebatesme.com/cmb/register" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PanguBot;pangubot@huawei.com)"
AI安全模型
17.SiteAuditBot
"GET /guest-api/rest/get-advertisement-map?slugs=nav_international&_=1723368452732 HTTP/1.1" 200 756 "https://www.rebatesme.com/en/deal/37269" "Mozilla/5.0 (compatible; SiteAuditBot/0.97; +http://www.semrush.com/bot.html)" 和semrush 有点关系
18.1001FirmsBot
官网:https://www.1001firms.com/
"GET / HTTP/1.1" 200 558023 "-" "Mozilla/5.0 (compatible; 1001FirmsBot/1.0; +https://www.1001firms.com/1001firmsbot.php)
19.AwarioBot
量比较少
"Mozilla/5.0 (compatible; AwarioBot/1.0; +https://awario.com/bots.html)
20.BLEXBot
GET /robots.txt HTTP/1.1" 200 556 "-" "Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)"
爬虫或者搜索引擎,量少
21.ImagesiftBot
屏蔽
ImagesiftBot 是一个网络爬虫,主要用于在互联网上抓取公开可用的图像,以支持 Imagesift 的网络智能产品套件
Mozilla/5.0 (compatible; ImagesiftBot; +imagesift.com)
22.SeekportBot
搜索引擎,德国
"GET /robots.txt HTTP/1.1" 200 556 "-" "Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
23.MojeekBot
搜索引擎
"GET /robots.txt HTTP/1.1" 200 556 "-" "Mozilla/5.0 (compatible; MojeekBot/0.11; +https://www.mojeek.com/bot.html)
24.SenutoBot
"SenutoBot/1.0 (compatible; SenutoBot/1.0; +https://www.senuto.com/)
网站分析,量比较少,可以先放着
25.t3versionsBot
官网:https://www.senuto.com/
"Mozilla/5.0 (compatible; t3versionsBot/1.0; +https://www.t3versions.com/bot)"
量少,没什么问题
26.YodaoBot 网易有道
"Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/\xA1\xB1; )
27.ZumBot
"Mozilla/5.0 (Windows NT 10.0; ZumBot/1.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
量少