2020 年 12月 5 日随笔档案 - Hao_ran

2020年12月5日

摘要： 1.Robots协议 robots协议_百度百科 (baidu.com) User-agent描述了搜索爬虫的名称，将其设置为*则代表该协议对任何爬虫都有效。 Disallow指定了不允许抓取的目录。Allow一般和Disallow一起使用，用来排除某些限制。 #禁止所有爬虫访问任何目录 User- 阅读全文

posted @ 2020-12-05 19:01 Hao_ran 阅读(134) 评论(0) 推荐(0) 编辑

urllib.request模块(3)：解析链接

摘要： 1.urlparse() 作用：实现url的识别和分段。代码： from urllib.parse import urlparse result=urlparse('http://www.baidu.com/index.html;user?id=5#comment') print(type(res 阅读全文

posted @ 2020-12-05 16:58 Hao_ran 阅读(198) 评论(0) 推荐(0) 编辑

Hao_ran

公告