robots

 

百度百科:robots

有更详细的介绍。

 

 robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

robots是站点根目录下的robots.txt文件。

文件设置内容指定蜘蛛可以访问的范围。

 

使用示例:

1. 允许所有SE收录本站:robots.txt为空就可以,什么都不要写。
2. 禁止所有SE收录网站的某些目录:
  User-agent: *
  Disallow: /目录名1/
  Disallow: /目录名2/
  Disallow: /目录名3/
3. 禁止某个SE收录本站,例如禁止百度:
  User-agent: Baiduspider
  Disallow: /
4. 禁止所有SE收录本站:
  User-agent: *
  Disallow: /
5,允许访问文件:
  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
6,禁止访问图片:
  User-agent: *
  Disallow: .jpg$
  jpg可以代替为gif,png 等等...
 
 

posted on   荆棘人  阅读(357)  评论(0编辑  收藏  举报

编辑推荐:
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示