如何屏蔽GPTBot抓取网站内容
8月8日,OpenAI 推出了GPTBot,和谷歌、Bing等类似的网络爬虫工具,能够自动抓取网站的数据,用来训练 GPT-4 或 GPT-5,提升未来人工智能系统的准确性和能力。
GPTBot user-agent
可通过以下代码识别
1 2 3 | User agent token: GPTBot Full user-agent string: Mozilla /5 .0 AppleWebKit /537 .36 (KHTML, like Gecko; compatible; GPTBot /1 .0; +https: //openai .com /gptbot ) |
GPTBot的IP地址是多少
1 2 3 4 5 6 7 8 9 | 20.15.240.64 /28 20.15.240.80 /28 20.15.240.96 /28 20.15.240.176 /28 20.15.241.0 /28 20.15.242.128 /28 20.15.242.144 /28 20.15.242.192 /28 40.83.2.64 /28 |
如何禁止GPTBot访问
1、你可以通过robots.txt文件禁止 OpenAI 对自己的网站访问,不将自己的数据用来训练,代码如下。GPTBot会遵循robots协议,
1 2 | User-agent: GPTBot Disallow: / |
你还可以通过以下代码,来控制 GPTBot 对网站部分内容的访问。
1 2 3 | User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/ |
2、你也可以将以上ip段加入到防火墙来屏蔽GPTBot
3、将user-agent加入到防火墙
相关文章:

加微信交流
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
2021-08-10 shopify ella模板主题配置修改
2020-08-10 wordpress restful api数据调用