返回顶部

Spider --urlilib.request.Request 请求模块 简单使用

1、源码案例

from urllib import request

# 定义常用变量:URL、headers
url = 'http://httpbin.org/get'

headers = {'User-Agent':'Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50'}

# 1.创建请求对象 -包装,并没有真正发出请求
req = request.Request(url=url, headers=headers)

# 2.获取响应对象
res = request.urlopen(req)

# 3.提取响应内容
html = res.read().decode('utf-8')

print(html)

2、参数解析

  • 作用

    创建请求对象(包装请求,重构User-Agent,使程序更像正常人类请求)

  • 参数

    • 1、url:请求的URL地址
      2、headers:添加请求头(爬虫和反爬虫斗争的第一步)

       

3、使用流程

1、构造请求对象(重构User-Agent)
    req = urllib.request.Request(
        url = 'http://httpbin.org/get'
      headers={'User-Agent':'Mozilla/5.0'}
    )
2、发请求获取响应对象(urlopen)
    res = urllib.request.urlopen(req)
3、获取响应对象内容
    html = res.read().decode('utf-8')

 

posted @ 2020-04-05 17:10  Be-myself  阅读(220)  评论(0编辑  收藏  举报
levels of contents 点击查看具体代码内容