python3爬虫之Urllib库（一）

在python2里边，用urllib库和urllib2库来实现请求的发送，但是在python3种在也不用那么麻烦了，因为只有一个库了：Urllib.

urllib库是python的标准库，简而言之就是不用自己安装，使用时只需要import一下就好。

　　urllib库包含4个模块：

　　　　request：最基本的HTTP请求模块，用来发起请求，就和人们在浏览器上输入网址来访问网页一样。

　　　　error：异常处理模块，如果在请求时出现错误，用这个模块来抓住异常，保证程序不会因为抛出异常而挂掉。

　　　　parse：一个工具模块，提供了许多URL处理方法，比如URL的拆分、合并等等。

　　　　robotparser：主要用来识别目标网站的robot.txt文件（基本用不上）

　　使用request模块可以发送请求，主要有两个方法： urlopen() Request()

　　urlopen()

　　首先来举个栗子：我们来使用urlopen方法来请求“笔趣阁”网站

　　这是urllib()的API：

　　urllib.request.urlopen(url, data=None, [timeout,]*, cafile=None, capath=None, cadefault=False, context=None)

from urllib import request

target_url = 'http://www.biquge9.com/'   
result = request.urlopen(target_url)    # 返回的response是类文件对象
print(result.read().decode('utf-8'))

　　部分结果截图（整个网页内容太多放不下，我仅仅把网页的头部截了下来）：

　　是不是很强大？几行代码就可以扒下想要网页源代码，只要源码在手，里边的内容还不是想怎么拿怎么拿

　　urllib库的request模块提供了最基本的用来构造HTTP请求的方法，整个请求过程已经完全封装好了，我们只需要调用固定的方法，传给相应的参数就可以发起请求了。

　　下边我们来分析一下刚刚那几行代码：

　　from urllib import request # 用来导入urllib库的request模块

　　result = request.urlopen(target_url) # 使用urlopen方法来请求网页

　　我们打印一下result的格式：

　　<class 'http.client.HTTPResponse'> 这是一个HTTPOResponse类型的对象。这个对象我们是无法直接获取网页内容的，但是或者对象包含了许多方法与属性：如 read() readinto() getheader(name) getheaders() fileno() geturl() info() getcode() 等方法和msg version status reason debuglevel closed等属性，通过调用这些方法和属性，我们就可以获取到关于html页面的信息。

　　方法：

（1）read() 调用read()方法就可以查看到网页的源代码了。但是得到的是bytes字节的类型。