python爬虫 (一) 爬虫基础了解,urllib

• URL的含义:

统一资源定位符,结构:

URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。

关于URL和URI的区别:https://www.zhihu.com/question/21950864

• 环境的配置

IDE的选择。

 

Φ urllib

 

import urllib.request

response=urllib.request.urlopen("http://www.baidu.com",data,8000);

print response.read()

 

构造Request.

import urllib.request

request = urllib.Request("http://www.baidu.com")
response = urllib.urlopen(request)

print response.read()

 

ΦGET和POST

上面的程序演示了最基本的网页抓取,不过,现在大多数网站都是动态网页,需要你动态地传递参数给它,它做出对应的响应。所以,在访问时,我们需要传递数据给它。最常见的情况是什么?对了,就是登录注册的时候呀

 

posted on 2017-06-20 15:24  coderlt  阅读(135)  评论(0编辑  收藏  举报

导航