python 使用 lru_cache 缓存代理IP

本文地址:https://www.cnblogs.com/tujia/p/13690973.html

 

背景:当我们用python写爬虫时,一般会用到代理IP;代理IP一般是有一定有效时间的,每次请求都换IP,有点浪费IP,所以我们需求在IP的有效时间内需要缓存IP,不换IP

 

前提知识:

1)@lru_cache 装饰器可以在程序运行期间缓存函数返回值,第一次调用函数缓存函数返回值,后面的调用就直接读缓存返回

2)@lru_cache 装饰器会为被装饰的函数创建两个属性(方法):cache_info 和 cache_clear,其中 cache_clear 方法可以清除缓存,重新计算函数

3)了解更多,请看官方文档:https://docs.python.org/zh-cn/3.7/library/functools.html#functools.lru_cache

 

下面就直接上代码了,红色的地方是重点:

import requests
from bs4 import BeautifulSoup
from functools import lru_cache


# 获取代理ip(可以去芝麻代理注册一个账号,领取免费IP)
# @link http://h.zhimaruanjian.com/getapi/
@lru_cache(maxsize=1)
def getProxies(retry_times=0):
    # 直连IP的api地址
    api_url = 'http://webapi.http.zhimacangku.com/getip?num=1&type=1&pro=&city=0&yys=0&port=1&pack=97108&ts=0&ys=0&cs=0&lb=1&sb=0&pb=4&mr=1&regions='
    # 请求头
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'}
    try:
        r = requests.get(api_url, headers=headers, timeout=3)
        if r.status_code == 200:
            if r.text.find('{') > -1:
                j = r.json()
                # 请x秒后再试
                if j['code'] == 111:
                    s = int(re.search(r'\d', j['msg']).group(0))
                    time.sleep(s)
                # 套餐已用完
                elif j['code'] == 121:
                    return None
            else:
                proxyMeta = 'http://' + r.text.strip()
                return {'http': proxyMeta, 'https': proxyMeta}

        if retry_times < 3:
            retry_times += 1
            return getProxies(retry_times)
    except requests.exceptions.RequestException:
        pass

    if retry_times < 3:
        retry_times += 1
        return getProxies(retry_times)
    else:
        return None


# 获取网页内容
def getContent(url, retry_times=0, use_proxy=True):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'}

    try:
        proxies = getProxies() if use_proxy else None
        r = requests.get(url, headers=headers, proxies=proxies, timeout=10)
        if r.status_code == 200:
            r.encoding = 'utf-8'
            return r.text
    except requests.exceptions.InvalidProxyURL:
        print('InvalidProxyURL: %s' % str(proxies))
        # 代理异常,清除一下代理缓存,重新获取代理ip
        getProxies.cache_clear()
    except requests.exceptions.ProxyError:
        print('ProxyError: %s' % str(proxies))
        # 代理异常,清除一下代理缓存,重新获取代理ip
        getProxies.cache_clear()
    except requests.exceptions.InvalidURL:
        print('InvalidURL: %s %s' % (url, str(proxies)))
        # URL错误,也有可能是因为代理异常,所以也重新获取一个代理ip
        getProxies.cache_clear()
    except requests.exceptions.Timeout:
        print('TimeoutError: %s' % url)
    except requests.exceptions.RequestException:
        print('RequestException: %s' % url)

    # 代理异常或其他异常时
    if retry_times < 3:
        retry_times += 1
        return getContent(url, retry_times, use_proxy)
    else:
        return ''


if __name__ == '__main__':
    for i in range(3):
        # 看一下三次打印的代理ip是不是一样的
        print(getProxies())
        # 请求一下百度试试
        content = getContent('https://www.baidu.com')
        if content != '':
            soup = BeautifulSoup(content, 'lxml')
            print(soup.title.string)

    print('Finished')

 

本文地址:https://www.cnblogs.com/tujia/p/13690973.html


 完。

posted @ 2020-09-18 14:10  Tiac  阅读(328)  评论(0编辑  收藏  举报