urllib学习

一、简介

urllib 是一个收集了多个涉及 URL 的模块的包:
  urllib.request 打开和读取 URL
  urllib.error 包含 urllib.request 抛出的异常
  urllib.parse 用于解析 URL
  urllib.robotparser 用于解析 robots.txt 文件

二、urllib.request 打开和读取 URL

1、urllib.request 模块定义了以下函数:

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
打开统一资源定位符 url,可以是一个字符串或一个 Request 对象。
  data 必须是一个对象,用于给出要发送到服务器的附加数据,若不需要发送数据则为 None。
  urllib.request 模块采用 HTTP/1.1 协议,并且在其 HTTP 请求中包含 Connection:close 头部信息。
  timeout 为可选参数,用于指定阻塞操作(如连接尝试)的超时时间,单位为秒。如未指定,将使用全局默认超时参数)。本参数实际仅对 HTTP、HTTPS 和 FTP 连接有效。
  如果给定了 context 参数,则必须是一个 ssl.SSLContext 实例,用于描述各种 SSL 参数。
  cafile 和 capath 为可选参数,用于为 HTTPS 请求指定一组受信 CA 证书。cafile 应指向包含CA 证书的单个文件, capath 则应指向哈希证书文件的目录。
本函数总会返回一个对象,该对象可作为 context manager 使用,带有 url、headers 和 status 属性。

from urllib.request import urlopen
myURL = urlopen("https://www.cnblogs.com/windyrainy/p/15068700.html")
print(myURL.read())            #输出的是字节类型

#除了 read() 函数外,还包含以下两个读取网页内容的函数:
#readline() - 读取文件的一行内容
#readlines() - 读取文件的全部内容,它会把读取的内容赋值给一个列表变量。

2、urllib.request 模块定义了以下类:

class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
  URL 请求对象的抽象类。 url 应为包含合法 URL 的字符串。
  data 必须是一个对象,用于给定发往服务器的附加数据,若无需此类数据则为 None 。 目前 唯一用到 data 的只有 HTTP 请求。支持的对象类型包括字节串、类文件对象和可遍历的类字节串对象。如果没有提供 Content-Length 和 Transfer-Encoding 头部字段, HTTPHandler 会根据 data 的类型设置这些头部字段。Content-Length 将用于发送字节对象,而 RFC 7230中定义的 Transfer-Encoding: chunked 将用于发送文件和其他可遍历对象。
  对于 HTTP POST 请求方法而言,data 应该是标准 application/x-www-form-urlencoded 格式的缓冲区。 urllib.parse.urlencode() 函数的参数为映射对象或二元组序列,并返回一个该编码格式的 ASCII 字符串。在用作 data 参数之前,应将其编码为字节串。
  headers 应为字典对象,视同于用每个键和值作为参数去调用 add_header() 。通常用于 User-Agent 头部数据的“伪装” ,浏览器用这些头部数据标识自己——某些 HTTP 服务器只允许来自普通浏览器的请求,而不接受来自脚本的请求。
  如果给出了 data 参数,则应当包含合适的 Content-Type 头部信息。若未提供且 data 不是 None,则会把 Content-Type: application/x-www-form-urlencoded 加入作为默认值。
  origin_req_host 应为发起初始会话的请求主机。默认指为``http.cookiejar.request_host(self)`` 。这是用户发起初始请求的主机名或 IP 地址。假设请求是针对 HTML 文档中的图片数据发起的,则本属性应为对包含图像的页面发起请求的主机。
  unverifiable 应该标示出请求是否无法验证。默认值为 False 。所谓无法验证的请求,是指用户没有机会对请求的 URL 做验证。例如,如果请求是针对 HTML 文档中的图像,用户没有机会去许可能自动读取图像,则本参数应为 True。
  method 应为字符串,标示要采用的 HTTP 请求方法(例如 'HEAD' )。如果给出本参数,其值会存储在 method 属性中,并由 get_method() 使用。如果 data 为``None`` 则默认值为 'GET' ,否则为 'POST'。子类可以设置 method 属性来标示不同的默认请求方法。

req = urllib.request.Request('https://www.cnblogs.com/windyrainy/p/15068700.html')
opener = urllib.request.urlopen(req)
print(opener.read())    #输出的是字节类型

三、urllib.parse 用于解析 URL

URL解析功能可以将一个URL字符串分割成其组件,或者将URL组件组合成一个URL字符串。
(1)urllib.parse 模块定义了以下函数:
urlencode()
urlparse()

>>>from urllib.parse import urlparse
>>>o = urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
>>>o 
ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',
params='', query='', fragment='')

属性

索引

值(如果不存在)

scheme

0

URL协议

scheme 参数

netloc

1

网络位置部分

空字符串

path

2

分层路径

空字符串

params

3

最后路径元素的参数

空字符串

query

4

查询组件

空字符串

fragment

5

片段识别

空字符串

username

 

用户名

None

password

 

密码

None

hostname

 

主机名(小写)

None

port

 

端口号为整数(如果存在)

None

posted @ 2021-08-18 11:27  Einewhaw  阅读(24)  评论(0编辑  收藏  举报