网站robots.txt文件简要说明

1、robots.txt文件是用来指示搜索引擎的爬虫哪些页面可以爬取,哪些页面不能爬取的。
2、robots.txt(统一小写)

文件路径:

网站根目录/robots.txt 或者 public/robots.txt

关键指令解释:

User-agent: 指定搜索引擎爬虫(如 Googlebot、Bingbot 等),*代表所有爬虫。

Disallow: 禁止访问的路径,/代表根目录,后面跟随的路径表示要禁止爬取的目录或文件。

Allow: 明确允许访问的路径(仅用于与 Disallow 搭配)。

Sitemap: 提供站点地图的 URL

1、允许所有爬虫爬取所有内容:

写法一:

User-agent: *
Disallow:

写法二:

User-agent: *
Allow:/

2、禁止所有爬虫访问整个网站:

User-agent: *
Disallow: /

3、禁止所有爬虫访问特定目录或文件:

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /secret.html

4、允许所有爬虫访问某个目录或文件,但禁止其他部分:

User-agent: *
Disallow: /private/
Allow: /public/
Allow: /index.html
posted @   未来的羁绊  阅读(475)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 上周热点回顾(2.17-2.23)
历史上的今天:
2023-09-19 修改mysql数据库时区及如何使其永久有效【转】
点击右上角即可分享
微信分享提示