如何屏蔽GPTBot抓取网站内容

8月8日,OpenAI 推出了GPTBot,和谷歌、Bing等类似的网络爬虫工具,能够自动抓取网站的数据,用来训练 GPT-4 或 GPT-5,提升未来人工智能系统的准确性和能力。

什么是GPTBot

 

GPTBot user-agent

可通过以下代码识别

1
2
3
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko;
compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBot的IP地址是多少

1
2
3
4
5
6
7
8
9
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
详情参考https://openai.com/gptbot-ranges.txt

如何禁止GPTBot访问

1、你可以通过robots.txt文件禁止 OpenAI 对自己的网站访问,不将自己的数据用来训练,代码如下。GPTBot会遵循robots协议,

1
2
User-agent: GPTBot
Disallow: / 

  你还可以通过以下代码,来控制 GPTBot 对网站部分内容的访问。

1
2
3
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

  

2、你也可以将以上ip段加入到防火墙来屏蔽GPTBot

3、将user-agent加入到防火墙

 

相关文章:

如何屏蔽各大AI公司爬虫User Agent

posted @   ytkah  阅读(356)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
历史上的今天:
2021-08-10 shopify ella模板主题配置修改
2020-08-10 wordpress restful api数据调用
网址导航 gg N / G Sitemap

部分内容来源于网络,如有版权问题请联系删除

  
点击右上角即可分享
微信分享提示