urllib 和 urllib2 对比学习 笔记一

urlparse module

1. urlparse.urlunparse()
    complex tuple into ure
2. urlparse()
    split url into a fixed format.return tuple
3.urlparse.urljoin()
    #合并域名和根路径

urllib module

1.urllib.urlopen()
    open url and return file object
    method:(read/readline/readlines/info/geturl/close)
2.urllib.urlretrieve()
    download url to file
3.urllib.quote()
    urllib.quote(urldata,safe='/')
    #与url.unquote_plus()
4.urllib.urelencode()
    #接收字典的键值对,并将其编译成字符串,作为CGI请求的URL字符串的一部分.
   urlencode()里面必须是字典类型

    urllib.urlopen() 通过url 获取远程数据

    urlopen返回 一个类文件对象,它提供了如下方法:
    read() , readline() , readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样;
    info():返回一个httplib.HTTPMessage 对象,表示远程服务器返回的头信息
    getcode():返回Http状态码。如果是http请求,200表示请求成功完成;404表示网址未找到;
    geturl():返回请求的url;

    urllib.urlretrieve 直接将远程数据下载到本地
    参数说明:
    url:外部或者本地url
    filename:指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据);
    reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度。
    data:指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),filename表示保存到本地的路径,header表示服务器的响应头。


urllib2:
    urllib2.urlopen() 同上

    urllib2.request()
    Request总共三个参数,除了必须要有url参数,还有下面两个:
    1.data(默认空):是伴随 url 提交的数据(比如要post的数据),同时 HTTP 请求将从 "GET"方式 改为 "POST"方式。
    2.headers(默认空):是一个字典,包含了需要发送的HTTP报头的键值对

    # add_header()方法添加/修改一个HTTP报头
    request.add_header('User-Agent',user_agent#get_header()获取一个已有的HTTP报头的值,注意只能第一个字母大写,后面的要小写
    print request.get_header('User-agent'))


urllib和urllib2的主要区别

 urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能,最显著的区别如下:
(1)urllib仅可以接受URL,不能创建,设置headers的request类实例;
(2)但是urllib提供urlencode()方法用来GET查询字符串的产生,而urllib2则没有(这是urllib和urllib2经常一起使用的主要原因)
(3)编码工作使用urllib的urlencode()函数,帮我们讲key:value这样的键值对转换成‘key=value’这样的字符串,解码工作可以使用urllib的unquote()

 

posted @ 2019-04-09 15:04  6six  阅读(110)  评论(0编辑  收藏  举报