随笔分类 - Python3网络爬虫 / 02.基本库的使用
摘要:准备工作 Python3,3.6以上的版本 了解Python多进程的基本原理 了解PythonHTTp请求库requests的基本用法 了解正则表达式的用法和正则表达式re的基本用法 爬取目标 静态网站案例,包含一些电影信息。 电影详情页 需完成的目标: requests爬取站点的每一页电影列表,顺
阅读全文
摘要:urllib和requests库已经可以爬取大多数网站的数据,但对于一些强制使用HTTP/2.0协议访问,这时urllib和requests是无法爬取数据的,因为只支持HTTP/1.1,不支持HTTP/2.0。可以使用一些支持HTTP/2.0的请求库,比较有代表性的是hyper和httpx,后者用起
阅读全文
摘要:准备工作 安装request库 pip install request 实例引入 get方法实现GET请求,返回一个Response对象,存放在变量r中,分别输出响应的类型、状态码、响应体的类型、内容以及cookie import requests r = requests.get('http://
阅读全文
摘要:urllib的使用 urllib是Python内置的用于处理URL操作的模块。它提供了很多功能,包括访问和处理URL内容、解析URL等。 1. 安装 urllib urllib是Python标准库的一部分,因此无需单独安装。Python2分为urllib和urllib2,Python3合并为urll
阅读全文