Urllib库的使用

一、任务描述

本实验任务主要对urllib库进行一些基本操作，通过完成本实验任务，要求学生熟练掌握urllib库的使用，并对urllib库的基本操作进行整理并填写工作任务报告。

二、任务目标

1、掌握urllib库的导入和使用

三、任务环境

Ubuntu16.04、Python2.7

四、任务分析

urllib 是一个收集多个模块以处理URL的软件包：

urllib.request 用于打开和阅读网址

urllib.error 包含由…提出的例外 urllib.request

urllib.parse 用于解析URL

urllib.robotparser用于解析robots.txt文件

五、任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面，从弹出菜单中选择【Open in Terminal】命令打开终端。

通过【cd /home】切换到home目录下。【ls】查看该目录下的所有内容。

图1 切换目录

【mkdir spiderBasic】在home目录下创建spiderBasic文件夹。

图2 创建文件夹

步骤2、网页爬取

【cd spiderBasic】切换至spiderBasic目录下，【vim spider1.py】创建并编辑名为spider的Python文件。

图3 创建Python文件

扒网页，其实就是根据URL来获取它的网页信息，虽然在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的。

回车后进入编辑框内，按键盘【i】进入编辑状态，编译如下程序。

图4 编辑Python文件

编辑完毕后，按【esc】退出编辑状态，【:wq】保存并退出编辑框，【python spider1.py】执行spider1的Python文件。图片展示的是爬取的一部分。

图5 运行Python文件

分析该代码。通过【cat spider1.py】查看编译的内容。

【import】是导入urllib2的模块

【urllib2.urlopen()】是调用urllib2库里面的urlopen方法，传入一个URL，网址以百度为例，协议是HTTP协议。

urlopen一般接受三个参数:

第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。

第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要传送的，在这个实验里传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。

response对象有一个read方法，可以返回获取到的网页内容。

图6 urlopen函数

urlopen参数可以传入一个Request请求，其实就是一个Request类的实例，构造时需要传入URL，Data等内容。

再次通过【vim spider1.py】打开编辑文件，文件内容修改如下。

图7 Request请求

保存并退出编辑状态后，运行后发现结果是完全一样的，只不过中间多了一个request对象，因为在构建请求时还需要加入好多内容，通过构建一个request，服务器响应请求得到应答。

步骤3、数据传送

上面的程序演示了最基本的网页抓取，不过，现在大多数网站都是动态网页，需要动态地传递参数给它，它做出对应的响应。所以，在访问时，需要传递数据给它。最常见的情况就是登录注册的时候。把数据用户名和密码传送到一个URL，然后得到服务器处理之后的响应

POST方式：

【vim spider2.py】创建并编辑spider2.py的Python文件。

图8 创建Python文件

回车后进入编辑框内，按键盘【i】进入编辑状态，输入如下程序。

引入了urllib库。定义一个字典，名字为values，参数设置了username和password（账号密码可以写自己真实的CSDN的账号密码，该实验密码为了隐私以x代替），下面利用urllib的urlencode方法将字典编码，命名为data，构建request时传入两个参数，url和data，运行程序，返回的便是POST后呈现的页面内容。