爬蟲項目實踐--爬取網易新聞版塊
基於scrapy-redis 的第二種形式的分佈式爬蟲:
1.基於RedisSpider實現的分佈式爬蟲(網易新聞)
中間件:
class WangyiproDownloaderMiddleware(object): def process_request(self, request, spider): return None #request:響應對象對應的請求對象 #response:攔截到的請求對象 #spider:爬蟲文件中對應的爬蟲類的實例 def process_response(self, request, response, spider): #響應對象頁面數據的篡改 return response
chromedevice的驅動要下載好對應的版本,否則用get時不能打開url