网站robots.txt文件简要说明

1、robots.txt文件是用来指示搜索引擎的爬虫哪些页面可以爬取,哪些页面不能爬取的。
2、robots.txt(统一小写)

文件路径:

网站根目录/robots.txt 或者 public/robots.txt

关键指令解释:

User-agent: 指定搜索引擎爬虫(如 Googlebot、Bingbot 等),*代表所有爬虫。

Disallow: 禁止访问的路径,/代表根目录,后面跟随的路径表示要禁止爬取的目录或文件。

Allow: 明确允许访问的路径(仅用于与 Disallow 搭配)。

Sitemap: 提供站点地图的 URL

1、允许所有爬虫爬取所有内容:

写法一:

User-agent: *
Disallow:

写法二:

User-agent: *
Allow:/

2、禁止所有爬虫访问整个网站:

User-agent: *
Disallow: /

3、禁止所有爬虫访问特定目录或文件:

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /secret.html

4、允许所有爬虫访问某个目录或文件,但禁止其他部分:

User-agent: *
Disallow: /private/
Allow: /public/
Allow: /index.html
posted @ 2024-09-19 12:01  未来的羁绊  阅读(291)  评论(0编辑  收藏  举报