摘要: 1.Robots协议 robots协议_百度百科 (baidu.com) User-agent描述了搜索爬虫的名称,将其设置为*则代表该协议对任何爬虫都有效。 Disallow指定了不允许抓取的目录。Allow一般和Disallow一起使用,用来排除某些限制。 #禁止所有爬虫访问任何目录 User- 阅读全文
posted @ 2020-12-05 19:01 Hao_ran 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 1.urlparse() 作用:实现url的识别和分段。 代码: from urllib.parse import urlparse result=urlparse('http://www.baidu.com/index.html;user?id=5#comment') print(type(res 阅读全文
posted @ 2020-12-05 16:58 Hao_ran 阅读(198) 评论(0) 推荐(0) 编辑