Linux + ProxyPool 搭建属于爬虫代理IP池

前言：

当爬虫达到一定速度时，大家都会遇到封Ip的情况，而搭建代理ip池是解决的最好方法，网络上有很多优秀的付费代理，但是作为白嫖党的我们又怎么能付钱那，本文将教会大家用一个成熟的开源项目搭建代理池。

项目介绍：

ProxyPool

在这里插入图片描述

爬虫代理IP池项目,主要功能为定时采集网上发布的免费代理验证入库，定时验证入库的代理保证代理的可用性，提供API和CLI两种使用方式。同时你也可以扩展代理源以增加代理池IP的质量和数量。

ProxyPool

文档地址： document
支持版本：python2/python3

运行项目

下载代码:

git clone

git clone git@github.com:jhao104/proxy_pool.git

releases

https://github.com/jhao104/proxy_pool/releases 下载对应zip文件

安装依赖:

pip install -r requirements.txt

更新配置:

# setting.py 为项目配置文件

# 配置API服务

HOST = "0.0.0.0"               # IP
PORT = 5000                    # 监听端口


# 配置数据库

DB_CONN = 'redis://:pwd@127.0.0.1:8888/0'


# 配置 ProxyFetcher

PROXY_FETCHER = [
    "freeProxy01",      # 这里是启用的代理抓取方法名，所有fetch方法位于fetcher/proxyFetcher.py
    "freeProxy02",
    # ....
]

启动项目:

# 如果已经具备运行条件, 可用通过proxyPool.py启动。
# 程序分为: schedule 调度程序 和 server Api服务

# 启动调度程序
python proxyPool.py schedule

# 启动webApi服务
python proxyPool.py server

使用

启动web服务后, 默认配置下会开启 http://127.0.0.1:5010 的api接口服务:

api	method	Description	arg
/	GET	api介绍	None
/get	GET	随机获取一个代理	None
/get_all	GET	获取所有代理	None
/get_status	GET	查看代理数量	None
/delete	GET	删除代理	proxy=host:ip

爬虫使用

如果要在爬虫代码中使用的话，可以将此api封装成函数直接使用，例如：

import requests

def get_proxy():
    return requests.get("http://127.0.0.1:5010/get/").json()

def delete_proxy(proxy):
    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))

# your spider code

def getHtml():
    # ....
    retry_count = 5
    proxy = get_proxy().get("proxy")
    while retry_count > 0:
        try:
            html = requests.get('http://www.example.com', proxies={"http": "http://{}".format(proxy)})
            # 使用代理访问
            return html
        except Exception:
            retry_count -= 1
    # 删除代理池中代理
    delete_proxy(proxy)
    return None

console.log("公众号:虫术")
console.log("wx:spiderskill")
欢迎大家前来交流

posted @ 2021-02-02 18:03 FalsePlus 阅读(60) 评论(0) 收藏举报

刷新页面返回顶部

falseplus

Linux + ProxyPool 搭建属于爬虫代理IP池

前言：

项目介绍：

ProxyPool

ProxyPool

运行项目

下载代码:

安装依赖:

更新配置:

启动项目:

使用