摘要: 【由于内容定位是个人学习笔记,所以并不适合作为系统的学习材料!!!】 1. Robots 协议 Robots 协议也称作爬虫协议、机器人协议,它的全名叫作网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。它通常是一个叫作 阅读全文
posted @ 2021-09-24 21:24 Rekord 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 【由于内容定位是个人学习笔记,所以并不适合作为系统的学习材料!!!】 1. Handle和Opener 首先,介绍一下 urllib.request 模块里的 BaseHandler 类,它是所有其他 Handler 的父类,它提供了最基本的方法,例如 default_open()、protocol 阅读全文
posted @ 2021-09-24 21:12 Rekord 阅读(47) 评论(0) 推荐(0) 编辑
摘要: 【由于内容定位是个人学习笔记,所以并不适合作为系统的学习材料!!!】 关于urlopen() urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context 阅读全文
posted @ 2021-09-24 20:56 Rekord 阅读(38) 评论(0) 推荐(0) 编辑