如何屏蔽GPTBot抓取网站内容

8月8日，OpenAI 推出了GPTBot，和谷歌、Bing等类似的网络爬虫工具，能够自动抓取网站的数据，用来训练 GPT-4 或 GPT-5，提升未来人工智能系统的准确性和能力。

什么是GPTBot

GPTBot user-agent

可通过以下代码识别

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; 
compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBot的IP地址是多少

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

详情参考https://openai.com/gptbot-ranges.txt

如何禁止GPTBot访问

1、你可以通过robots.txt文件禁止 OpenAI 对自己的网站访问，不将自己的数据用来训练，代码如下。GPTBot会遵循robots协议，

User-agent: GPTBot
Disallow: /

　　你还可以通过以下代码，来控制 GPTBot 对网站部分内容的访问。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

2、你也可以将以上ip段加入到防火墙来屏蔽GPTBot

3、将user-agent加入到防火墙

如何屏蔽各大AI公司爬虫User Agent

posted @ 2023-08-10 21:40 ytkah 阅读(628) 评论(0) 收藏举报

刷新页面返回顶部

如何屏蔽GPTBot抓取网站内容

GPTBot user-agent

GPTBot的IP地址是多少

如何禁止GPTBot访问

公告