Tenacity——Exception Retry 从此无比简单 - 青南

公告

Python 装饰器装饰类中的方法这篇文章，使用了装饰器来捕获代码异常。这种方式可以让代码变得更加简洁和Pythonic。

在写代码的过程中，处理异常并重试是一个非常常见的需求。但是如何把捕获异常并重试写得简洁高效，这就是一个技术活了。

以爬虫开发为例，由于网页返回的源代码有各种不同的情况，因此捕获异常并重试是很常见的要求。下面这几段代码是我多年以前，在刚开始学习爬虫的时候，由于捕获异常并重试导致代码混乱化过程。

代码一开始的逻辑非常简单，获取网页后台API返回的JSON字符串，转化成字典，提取出里面data的数据，然后传递给save()函数:

def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)

代码运行一段时间，发现有时候JSON会随机出现解析错误。于是添加捕获异常并重试的功能：

def extract(url):
    info_json = requests.get(url).text
    try:
        info_dict = json.loads(info_json)
    except Exception:
        print('网页返回的不是有效的JSON格式字符串，重试！')
        extract(url)
        return
    data = info_dict['data']
    save(data)

后来又发现，有部份的URL会导致递归深度超过最大值。这是因为有一些URL返回的是数据始终是错误的，而有些URL，重试几次又能返回正常的JSON数据，于是限制只重试3次：

def extract(url):
    info_json = requests.get(url).text
    try:
        info_dict = json.loads(info_json)
    except Exception:
        print('网页返回的不是有效的JSON格式字符串，重试！')
        for i in range(3):
            if extract(url):
                break

    data = info_dict['data']
    save(data)
    return True

后来又发现，不能立刻重试，重试要有时间间隔，并且时间间隔逐次增大......

从上面的例子中可以看到，对于异常的捕获和处理，一不小心就让整个代码变得很难看很难维护。为了解决这个问题，就需要通过装饰器来完成处理异常并重试的功能。

Python 有一个第三方库，叫做Tenacity，它实现了一种优雅的重试功能。

以上面爬虫最初的无限重试版本为例，如果想实现遇到异常就重试。只需要添加两行代码，爬虫的主体函数完全不需要做修改：

from tenacity import retry

@retry
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)

现在要限制重试次数为3次，代码总行数不需要新增一行就能实现：

from tenacity import retry

@retry(stop=stop_after_attempt(3))
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)

现在想每5秒钟重试一次，代码行数也不需要增加：

from tenacity import retry

@retry(wait=wait_fixed(5))
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)

甚至重试的时间间隔想指数级递增，代码行数也不需要增加：

from tenacity import retry

@retry(wait=wait_exponential(multiplier=1, max=10)) # 重试时间间隔满足：2^n * multiplier, n为重试次数，但最多间隔10秒
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)

重试不仅可以限制次数和间隔时间，还可以针对特定的异常进行重试。在爬虫主体中，其实有三个地方可能出现异常:

requests获取网页出错
解析JSON出错
info_dict字典里面没有data这个key

如果只需要在JSON解析错误时重试，由于异常类型为json.decoder.JSONDecodeError，所以就可以通过参数来进行限制：

from tenacity import retry
from json.decoder import JSONDecodeError

@retry(retry=retry_if_exception_type(JSONDecodeError))
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)

当然，这些特性都可以进行组合，例如只对JSONDecodeError 进行重试，每次间隔5秒，重试三次，那就写成：

from tenacity import retry
from json.decoder import JSONDecodeError

@retry(retry=retry_if_exception_type(JSONDecodeError), wait=wait_fixed(5), stop=stop_after_attempt(3))
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)

自始至终，爬虫主体的代码完全不需要做任何修改。

Tenacity是我见过的，最 Pythonic ，最优雅的第三方库。

本文首发地址：https://kingname.info/2017/06/18/easy-retry/转载请注明出处。

posted on 2017-06-18 15:25 青南阅读(813) 评论(0) 编辑收藏举报

刷新页面返回顶部

青南的小世界

公告