2.16总结

第十九天

 

python爬虫学习

主要使用Urllib库

  Urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib。

主要包含以下4个模块

  • urllib.request:用于打开和阅读URL
  • urllib.error:包含由引发的异常urllib.request
  • urllib.parse:用于解析URL
  • urllib.robotparser:用于解析robot.txt文件

urllib.request.urlopen()

模块定义了有助于在复杂环境中打开URL(主要是HTTP)的函数和类-基本身份验证和摘要身份验证,重构定向,Cookie等。

urllib.request.urlopen(url,data = None,[ timeout,] *,cafile = None,capath = None,cadefault = False,context = None)

 

语法详解

  • url:传入的对象可以是url也可以是一个request的对象;
  • data:data必须是一个直接要发送搭服务器的其他数据的对象,如果没有data数据的话可以为None,也可以不写。
  • timeout:以秒为单位制定用于组织链接尝试之类的操作超时;
posted @ 2024-02-16 16:08  花伤错零  阅读(1)  评论(0)    收藏  举报