爬虫笔记(五)——异常处理代码框架

异常主要分为两类,一类是URLError,一类是HTTPError。在异常处理中,我们常常使用try.......except.......语句,try主要执行主要代码,在except捕获异常信息,并进行相应的异常处理。一般来说,产生URLError的原因有以下几点:

  1. 连接不上服务器
  2. 远程URL不存在
  3. 无网络
  4. 触发了HTTPError异常

故可以看出URLError是HTTPError的父类,所以在实际中,我们并不知道会触发哪种异常,所以我们要先判断子类,再父类。

import urllib.request
import urllib.error


try:
    url = "http://blog.csd.net"
    url = urllib.request.urlopen(url)
except urllib.error.HTTPError as e:
    print (e.error)
    print (e.code)

except urllib.error.URLError as e:
    print (e.reason)
#常见状态码以及含义
#301 Moved Permanently:重定向到新的URL,永久性
#302 Found:重定向到临时的URL,非永久性
#304 Not Modified:请求的资源未更新
#400 Bad Request:非法请求
#401 Unauthorized:请求未经授权
#403 Forbidden:禁止访问
#404 Not Found:没有找到对应页面
#500 Internal Server Error:服务器内部出现错误
#501 Not Implemented:服务器不支持实现请求所需要的功能
posted @ 2018-07-16 21:28  龙~白  阅读(160)  评论(0编辑  收藏  举报