月光大保健

导航

爬蟲項目實踐--爬取網易新聞版塊

基於scrapy-redis 的第二種形式的分佈式爬蟲:

1.基於RedisSpider實現的分佈式爬蟲(網易新聞)

中間件:

class WangyiproDownloaderMiddleware(object):
    def process_request(self, request, spider):
        return None

    #request:響應對象對應的請求對象
    #response:攔截到的請求對象
    #spider:爬蟲文件中對應的爬蟲類的實例        
    def process_response(self, request, response, spider):
        #響應對象頁面數據的篡改
    
        return response

 

chromedevice的驅動要下載好對應的版本,否則用get時不能打開url

網址:http://chromedriver.storage.googleapis.com/index.html

posted on 2019-07-31 17:26  月光大保健  阅读(93)  评论(0编辑  收藏  举报