python 3.7.5 Scrapy 架构中的代理IP和随机User-Agent 配置

基本上不需要修改原有代码,添加如下代码即可。

注:在settings.py 中需要注释点原有的 USER_AGENT 配置。

############### ##settings.py## ############### ### 配置IP代理池 IPPOOL = [ {"ipaddr":"x.x.x.x:端口"}, {"ipaddr":"x.x.x.x:端口"}, ] ### 配置User-agent 池 UAPOOL = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)" ] ###配置DOWNLOADER_MIDDLEWARES,注意此处需要修改为自己的爬虫名称 DOWNLOADER_MIDDLEWARES = { '自己的爬虫名称.middlewares.IPPOOLS': 125, '自己的爬虫名称.middlewares.Uamid': 127, } ###################### ##配置 middlewares.py## ######################
import random from .settings import IPPOOL from .settings import UAPOOL from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware ### IP代理池 class IPPOOLS(HttpProxyMiddleware): def __init__(self, ip=""): self.ip = ip def process_request(self, request, spider): thisip = random.choice(IPPOOL) #print("当前使用的IP为: " + thisip["ipaddr"]) request.meta["proxy"] = "http://" + thisip["ipaddr"] ### 用户代理池 class Uamid(UserAgentMiddleware): def __init__(self, user_agent=""): self.user_agent = user_agent def process_request(self, request, spider): thisua = random.choice(UAPOOL) #print("当前使用的User-Agent是: " + thisua) request.headers.setdefault("User-Agent", thisua)

 


__EOF__

本文作者语 默
本文链接https://www.cnblogs.com/weijie0717/p/16115975.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   语~默  阅读(104)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
点击右上角即可分享
微信分享提示