scrapy 下载器中间件+【反爬虫】下载管道、代理池的自定义
Request 和Response解析
自定义下载管道Pipeline
Files Pipeline
当使用Files Pipeline
下载文件的时候,按照以下步骤来完成:
1.定义好一个item
,然后再这个item
中定义两个属性,分别为file_urls
以及files
。file_urls
是用来是存储需要下载的文件的url链接,需要给一个列表。
2.当文件下载完成后, 会把文件下载的相关信息存储到item
的files
属性中。比如下载路径、下载的url和文件的校验码等。
3.在配置文件settings.py
中配置FILES_STORE
,这个配置是用来设置文件下载下来的路径。
4.启动pipeline
:在ITEM_PILELINES
中设置scrapy.pipelines.files.FilesPipeline:1
Images Pipeline
当使用Images Pipeline
下载文件的时候,按照以下步骤来完成:
1.定义好一个item
,然后再这个item
中定义两个属性,分别为image_urls
以及images
。image_urls
是用来是存储需要下载的文件的url链接,需要给一个列表。
2.当文件下载完成后, 会把文件下载的相关信息存储到item
的images
属性中。比如下载路径、下载的url和文件的校验码等。
3.在配置文件settings.py
中配置IMAGES_STORE
,这个配置是用来设置文件下载下来的路径。
4.启动pipeline
:在ITEM_PILELINES
中设置scrapy.pipelines.images.ImagesPipeline:1
随机请求头的设置
import random
class UserAgentDownloadMiddlware(object):
USER_AGENT = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"]
def process_request(self,request,spider):
#设置随机请求头
user_angent = random.choice(self.USER_AGENT)
request.headers["User_Agent"] = user_angent
#把settings中的DOWNLOAD_MIDDLEWARES 打开并且替换成自己设定好的请求头
DOWNLOADER_MIDDLEWARES = {
'项目名.middlewares.UserAgentDownloadMiddleware': 543,
}
DOWNLOAD_DELAY = 1
spider爬虫名.py
该爬虫在重复请求的时候,每次都会更换随机请求头
start_urls = ['http://httpbin.prg/user-agent']
def parser(self,response):
user_agent = json.loads(response.text)['user-agent']
print(user_agent)
print("解析请求")
yield scrapy.Request(self.start_urls[0],dont_filter=True)
ip代理池的设置
开放代理池的设置
class IPProxyDownloadMiddleware(object):
PROXIES = ["178.44.170.152:8080",""110.44.113.182:8080]
def process_request(self,request,spider):
proxy = random.choice(self.PROXIES)
request.meta['proxy'] = proxy
独享代理池的设置
class IPProxyDownloadMiddleware(object):
def process_request(self,request,spider):
proxy = "121.198.6.124:16816"
user_password = "123456789:qgtxb269af"
request.meta['proxy'] = proxy
#bytes数据类型,根据<快代理>要求给数据,并且给予['Proxy-Authorization']权限
b64_user_password = base64.b64encode(user_password.encode('utf-8'))
request.headers['Proxy-Authorization'] = 'Basic' + b64_user_password.decode('utf-8')
DOWNLOADER_MIDDLEWARES = {
'项目名.middlewares. IPProxyDownloadMiddleware': 542,
}
DOWNLOAD_DELAY = 1
自定义请求头和IP代理池
import random
class UserAgentDownloadMiddleware(object):
user_agent = ['请求头列表']
def process_request(self):
user_agent = random.choice(self.user_agent)
这里没写完
class IPProxyDownloadMiddleware(object):
def process_request(self,request,spider):
pass
def process_response(self,request,response,spider):
pass