网站robots.txt文件简要说明
1、
robots.txt
文件是用来指示搜索引擎的爬虫哪些页面可以爬取,哪些页面不能爬取的。
2、robots.txt(统一小写)
文件路径:
网站根目录/robots.txt
或者 public/robots.txt
关键指令解释:
User-agent
: 指定搜索引擎爬虫(如 Googlebot、Bingbot 等),*
代表所有爬虫。
Disallow
: 禁止访问的路径,/
代表根目录,后面跟随的路径表示要禁止爬取的目录或文件。
Allow
: 明确允许访问的路径(仅用于与 Disallow
搭配)。
Sitemap
: 提供站点地图的 URL
。
1、允许所有爬虫爬取所有内容:
写法一:
User-agent: *
Disallow:
写法二:
User-agent: *
Allow:/
2、禁止所有爬虫访问整个网站:
User-agent: *
Disallow: /
3、禁止所有爬虫访问特定目录或文件:
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /secret.html
4、允许所有爬虫访问某个目录或文件,但禁止其他部分:
User-agent: *
Disallow: /private/
Allow: /public/
Allow: /index.html
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 上周热点回顾(2.17-2.23)
2023-09-19 修改mysql数据库时区及如何使其永久有效【转】