Spider --urlilib.request.Request 请求模块 简单使用
1、源码案例
from urllib import request # 定义常用变量:URL、headers url = 'http://httpbin.org/get' headers = {'User-Agent':'Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50'} # 1.创建请求对象 -包装,并没有真正发出请求 req = request.Request(url=url, headers=headers) # 2.获取响应对象 res = request.urlopen(req) # 3.提取响应内容 html = res.read().decode('utf-8') print(html)
2、参数解析
-
作用
创建请求对象(包装请求,重构User-Agent,使程序更像正常人类请求)
-
参数
-
1、url:请求的URL地址 2、headers:添加请求头(爬虫和反爬虫斗争的第一步)
-
3、使用流程
1、构造请求对象(重构User-Agent) req = urllib.request.Request( url = 'http://httpbin.org/get' headers={'User-Agent':'Mozilla/5.0'} ) 2、发请求获取响应对象(urlopen) res = urllib.request.urlopen(req) 3、获取响应对象内容 html = res.read().decode('utf-8')