如何屏蔽各大AI公司爬虫User Agent

罗列各大AI公司Scraper爬虫Crawler使用的User Agent，教您如何在robots.txt里面屏蔽这些爬虫的访问，禁止它们下载您的网站内容以训练 AI 模型，保护数据，降低带宽，防止宕机

GPTBot 是 OpenAI 使用的网络爬虫，用于下载 LLM（大型语言模型）的训练数据，为 ChatGPT 等人工智能产品提供支持。

30%的大站屏蔽了它

User-agent: GPTBot
Disallow: /

ChatGPT-User 由 OpenAI 的 ChatGPT 根据用户prompts提示派遣的。它的回答通常包含网站内容摘要，而不是直接转发给用户。

10%的大站屏蔽了它

User-agent: ChatGPT-User
Disallow: /

Cohere 是一家提供高级 LLM（大型语言模型）访问权限的公司，其他公司可利用这些 LLM 增强其人工智能产品。cohere-ai 是一个未经确认的代理，可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。

1%的大站屏蔽了它

User-agent: cohere-ai
Disallow: /

Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫，用于其人工智能产品（如 Bard 和 Vertex 人工智能生成应用程序接口）。

11%的大站屏蔽了它

User-agent: Google-Extended
Disallow: /

CCBot 是 Common Crawl 使用的一种网络爬虫，用于维护一个开放源代码的网络爬行数据存储库，任何人都可以使用该存储库。该资源库已被用于训练许多 LLM（大型语言模型），包括 OpenAI 的 GPT-3。

13%的大站屏蔽了它

User-agent: CCBot
Disallow: /

Omgilibot 是 Webz.io 用来维护网络抓取数据存储库的网络爬虫，Webz.io 将其出售给其他公司，包括那些用它来训练人工智能模型的公司。　　

1%的大站屏蔽了它

User-agent: omgilibot
Disallow: /

User-agent: omgili
Disallow: /

FacebookBot 是 Meta 用来下载人工智能语音识别技术训练数据的网络爬虫。

0%的大站屏蔽了它

User-agent: FacebookBot
Disallow: /

anthropic-ai 是一个未经证实的代理，可能是 Anthropic 用来下载 LLM（大型语言模型）训练数据的，比如AI产品Claude。

2%的大站屏蔽了它

User-agent: anthropic-ai
Disallow: /

Twitterbot 是一个常用的代理。它目前没有被归类为人工智能或与人工智能相关的任何类别。Twitter现更名为X。不确定是不是Grok的User Agent。埃隆-马斯克Elon Musk的人工智能公司 xAI 推出了一款名为 Grok 的人工智能聊天机器人。

11%的大站屏蔽了它

User-agent: Twitterbot
Disallow: /

更多AI公司爬虫User Agent不定时更新

posted @ 2023-12-30 11:24 ytkah 阅读(1054) 评论(0) 收藏举报

刷新页面返回顶部