scrapy 下载器中间件+【反爬虫】下载管道、代理池的自定义

Request 和Response解析

自定义下载管道Pipeline

Files Pipeline

当使用Files Pipeline下载文件的时候,按照以下步骤来完成:
1.定义好一个item,然后再这个item中定义两个属性,分别为file_urls以及filesfile_urls 是用来是存储需要下载的文件的url链接,需要给一个列表。
2.当文件下载完成后, 会把文件下载的相关信息存储到itemfiles属性中。比如下载路径、下载的url和文件的校验码等。
3.在配置文件settings.py中配置FILES_STORE,这个配置是用来设置文件下载下来的路径。
4.启动pipeline:在ITEM_PILELINES中设置scrapy.pipelines.files.FilesPipeline:1

Images Pipeline

当使用Images Pipeline下载文件的时候,按照以下步骤来完成:
1.定义好一个item,然后再这个item中定义两个属性,分别为image_urls以及imagesimage_urls 是用来是存储需要下载的文件的url链接,需要给一个列表。
2.当文件下载完成后, 会把文件下载的相关信息存储到itemimages属性中。比如下载路径、下载的url和文件的校验码等。
3.在配置文件settings.py中配置IMAGES_STORE,这个配置是用来设置文件下载下来的路径。
4.启动pipeline:在ITEM_PILELINES中设置scrapy.pipelines.images.ImagesPipeline:1

随机请求头的设置

middlewares.py

import random
class UserAgentDownloadMiddlware(object):
    USER_AGENT = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"]
    def process_request(self,request,spider):
        #设置随机请求头
        user_angent = random.choice(self.USER_AGENT)
        request.headers["User_Agent"] = user_angent

settings.py

#把settings中的DOWNLOAD_MIDDLEWARES 打开并且替换成自己设定好的请求头

DOWNLOADER_MIDDLEWARES = {
   '项目名.middlewares.UserAgentDownloadMiddleware': 543,
}
DOWNLOAD_DELAY = 1

spider爬虫名.py
该爬虫在重复请求的时候,每次都会更换随机请求头

start_urls = ['http://httpbin.prg/user-agent']
def parser(self,response):
	user_agent = json.loads(response.text)['user-agent']
	print(user_agent)
	print("解析请求")
	yield scrapy.Request(self.start_urls[0],dont_filter=True)

ip代理池的设置

middlewares.py

开放代理池的设置
class IPProxyDownloadMiddleware(object):
	PROXIES = ["178.44.170.152:8080",""110.44.113.182:8080]
	def process_request(self,request,spider):
		proxy = random.choice(self.PROXIES)
		request.meta['proxy'] = proxy

独享代理池的设置
class IPProxyDownloadMiddleware(object):
	def process_request(self,request,spider):
		proxy = "121.198.6.124:16816"
		user_password = "123456789:qgtxb269af"
		request.meta['proxy'] = proxy
		#bytes数据类型,根据<快代理>要求给数据,并且给予['Proxy-Authorization']权限
		b64_user_password = base64.b64encode(user_password.encode('utf-8'))
		request.headers['Proxy-Authorization'] = 'Basic' + b64_user_password.decode('utf-8')

settings.py

DOWNLOADER_MIDDLEWARES = {
   '项目名.middlewares. IPProxyDownloadMiddleware': 542,
}
DOWNLOAD_DELAY = 1

自定义请求头和IP代理池

import random
class UserAgentDownloadMiddleware(object):
    user_agent = ['请求头列表']
    def process_request(self):
        user_agent = random.choice(self.user_agent)

这里没写完

class IPProxyDownloadMiddleware(object):
     def process_request(self,request,spider):
         pass

     def process_response(self,request,response,spider):
         pass
posted @ 2019-07-21 18:13  不会玩python  阅读(6)  评论(0编辑  收藏  举报