网站robots.txt文件简要说明

1、robots.txt文件是用来指示搜索引擎的爬虫哪些页面可以爬取，哪些页面不能爬取的。
2、robots.txt（统一小写）

网站根目录/robots.txt 或者 public/robots.txt

User-agent: 指定搜索引擎爬虫（如 Googlebot、Bingbot 等），*代表所有爬虫。

Disallow: 禁止访问的路径，/代表根目录，后面跟随的路径表示要禁止爬取的目录或文件。

Allow: 明确允许访问的路径（仅用于与 Disallow 搭配）。

Sitemap: 提供站点地图的 URL。

User-agent: *
Disallow:

User-agent: *
Allow:/

User-agent: *
Disallow: /

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /secret.html

User-agent: *
Disallow: /private/
Allow: /public/
Allow: /index.html

posted @ 2024-09-19 12:01 未来的羁绊阅读(291) 评论(0) 编辑收藏举报

刷新页面返回顶部

未来的羁绊