爬虫笔记(五)——异常处理代码框架
异常主要分为两类,一类是URLError,一类是HTTPError。在异常处理中,我们常常使用try.......except.......语句,try主要执行主要代码,在except捕获异常信息,并进行相应的异常处理。一般来说,产生URLError的原因有以下几点:
- 连接不上服务器
- 远程URL不存在
- 无网络
- 触发了HTTPError异常
故可以看出URLError是HTTPError的父类,所以在实际中,我们并不知道会触发哪种异常,所以我们要先判断子类,再父类。
import urllib.request
import urllib.error
try:
url = "http://blog.csd.net"
url = urllib.request.urlopen(url)
except urllib.error.HTTPError as e:
print (e.error)
print (e.code)
except urllib.error.URLError as e:
print (e.reason)
#常见状态码以及含义
#301 Moved Permanently:重定向到新的URL,永久性
#302 Found:重定向到临时的URL,非永久性
#304 Not Modified:请求的资源未更新
#400 Bad Request:非法请求
#401 Unauthorized:请求未经授权
#403 Forbidden:禁止访问
#404 Not Found:没有找到对应页面
#500 Internal Server Error:服务器内部出现错误
#501 Not Implemented:服务器不支持实现请求所需要的功能