scrapy + selenium爬取网易新闻

前言：这算是一个比较综合的案例，理清了该案例会感到最近学的知识变的很条例、很清晰。需求是爬取五大板块对应的新闻标题以及每个标题对饮的新闻内容。

（一）分析网易页面

　　对于首页，通过定位发现每个板块都是嵌套在<ul>中，以单独的<li>存在。

　　点击每个板块，进去后发现页面是这样加载的：

　　说明每个板块的新闻标题都是动态加载出来的数据（也对，新闻这种实时更新的内容是动态加载出来的也在意料之中），动态加载的数据我们不能直接通过当前url来解析到，那怎么办呢？

　　回顾五大中间件，调度器给到引擎url后，引擎将它发送到下载器，然后下载器去互联网上获取response，那么目前这种情况response里面是不包含动态加载数据的，因此我们需要对返回的response进行篡改，让它包含了动态加载数据。

　　问题来了，获取动态加载数据最便捷的方法是之前学过的selenium，可以通过selenium实现获取动态加载数据，那么在哪进行篡改呢，又在哪用selenium呢？------ 既然要篡改返回的response，那自然就在下载中间件的地方实现篡改喽。

　　至于每条新闻标题对应的新闻内容，这就好说了，可以看到是直接写在源码中的，可以直接解析到，然后获取即可。

（二）代码编写

　　首先，获取五大板块的url并把它们存储到一个列表中，并依次对列表中的每个url发起请求：

    # 解析首页五大板块url
    def parse(self, response):
        li_list = response.xpath('//*[@id="index2016_wrap"]/div[3]/div[2]/div[2]/div[2]/div/ul/li')
        alist = [2,3,5,6]
        for index in alist:
            model_url = li_list[index].xpath('./a/@href').extract_first()
            self.model_urls.append(model_url)

            # 依次对各个板块url发起请求
        for url in self.model_urls:
            yield scrapy.Request(url,callback=self.parse_model)

　　接下来，我们要编写parse()中的回调函数parse_model()，涉及到response，那么就得去编写下载中间件进行篡改了。

　　先分析一波：所谓的篡改，无非就是用包含动态加载数据的new_response替代原response，那么new_response如何获得呢？

　　答：通过selenium再次向五大板块的url发起请求，此时的response中就包含了动态加载数据，然后用scrapy封装好的一个类HtmlResponse进行获取。

　　那么首先需要实例化一个浏览器对象，通过该对象进行selenium的模拟请求：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service

def __init__(self):
        self.s = Service(r'D:\Python\spider\selenium\chromedriver.exe')
        self.driver = webdriver.Chrome(service=self.s)

　　接着在middlewares中进行编写，由于process_response继承了spider，也就意味着spider中涉及到的url需要进行一次检验，是五大板块的url在进行selenium的重新请求，否则直接用原response就行。

　　【注意：middlewares中有两个类，对应两个中间件，一个是爬虫中间件一个是下载中间件，别写错地方了，我们要写在类DownloaderMiddleware中】

    # 拦截五大板块对应的响应对象，进行篡改
    def process_response(self, request, response, spider):
        # 获取在爬虫类中定义的浏览器对象
        driver = spider.driver

        # 挑选出需要篡改的response对应的request对应的url
        if request.url in spider.model_urls:
            # 针对五大板块对应的response进行篡改
            # 对五大板块的url发起请求
            driver.get(request.url)
            sleep(2)

            # 获取了包含动态加载数据的页面
            page_text = driver.page_source
            # 实例化一个新的响应对象（包含动态加载的数据）来代替原来旧的响应对象
            new_response = HtmlResponse(url=request.url,body=page_text,encoding='utf-8',request=request)
            return new_response
        else:
            # 其它请求的response
            return response

　　那经过上述操作，此时我们的response已经实现功能全覆盖，直接在脚本文件中编写回调函数即可：

    # 解析每个板块对应的新闻标题（新闻标题是动态加载出来的，获取动态加载的数据用Selenium）
    # 编写完下载中间件的process_response后，此时的response已经是new_response
    def parse_model(self,response):
        div_list = response.xpath('/html/body/div/div[3]/div[4]/div[1]/div[1]/div/ul/li/div/div')
        for div in div_list:
            news_title = div.xpath('./div/div[1]/h3/a/text() | ./div/h3/a/text()').extract_first()
            news_detail_url = div.xpath('./div/div[1]/h3/a/@href | ./div/h3/a/@href').extract_first()

            item = WangyiproItem()
            item['news_title'] = news_title

            # 对新闻详情页的url发起请求
            yield scrapy.Request(url=news_detail_url,callback=self.parse_detail,meta={'item':item})

　　注意用到了请求传参，我们需要去item中定义一下item的内容：

class WangyiproItem(scrapy.Item):
    # define the fields for your item here like:
    news_title = scrapy.Field()
    news_content = scrapy.Field()
    # pass

　　另外注意请求传参的使用：

    def parse_detail(self,response):
        news_content = response.xpath('//*[@id="content"]/div[2]//text() | //*[@id="content"]/div[2]/div[1]//text()').extract()
        news_content = ''.join(news_content)
        item = response.meta['item']
        item['news_content'] = news_content
        yield item

　　注意一个小细节，在开头实例化了浏览器驱动程序后，记得在最后给它关闭，减少没必要的资源消耗：

    # 关闭浏览器驱动程序
    def closed(self,spider):
        self.driver.quit()

　　最后，我们把获取到的新闻内容存储到一个txt文本中，方便观察运行结果，采用管道存储方式：

class WangyiproPipeline:
    fp = None

    # 重写父类方法，打开存储文件
    def open_spider(self,spider):
        print('开始爬取......')
        self.fp = open('./网易新闻.txt','w',encoding='utf-8')

    # 该方法专门用来处理item类型的对象，接收爬虫文件提交过来的item对象
    # 该方法每接收到一个item就会被调用一次
    def process_item(self, item, spider):
        news_title = item['news_title']
        news_content = item['news_content']
        self.fp.write(news_title + ':' + '\n' + news_content + ':' + '\n')
        return item

    # 关闭文件
    def close_spider(self,spider):
        print('爬取完成！！！')
        self.fp.close()

　　至此，代码内容已经编写完成，还需要设置一下，不遵守robots协议，UA伪装，设置输出日志的类型，同时打开下载中间件和管道类的配置信息：

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

LOG_LEVEL = 'ERROR'

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   'wangyiPro.middlewares.WangyiproDownloaderMiddleware': 543,
}

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'wangyiPro.pipelines.WangyiproPipeline': 300,
}

（三）报错处理

　　在运行后，一般可能有两个问题，一是：

　　二是：

ERROR:device_event_log_impl.cc(211)] USB: usb_device_handle_win.cc:1020 Failed to read
descriptor from node connection: 连到系统上的设备没有发挥作用。 (0x1F) 3ERROR:device_event_log_impl.cc(211)] Bluetooth: bluetooth_adapter_winrt.cc:1204 Gettin
g Radio failed. Chrome will be unable to change the power state by itself.
ERROR:device_event_log_impl.cc(211)] Bluetooth: bluetooth_adapter_winrt.cc:1297 OnPowe
redRadiosEnumerated(), Number of Powered Radios: 0”

　　问题一可能两种情况，一是数据解析时候xpath路径定位错了，二是获取列表元素时候忘加索引项了；至于问题二其实会正常运行，但强迫症的我还是想去掉这个提示，加几行代码即可：

    # 实例化浏览器对象
    def __init__(self):
        options = webdriver.ChromeOptions()
        options.add_experimental_option('excludeSwitches', ['enable-logging'])

        self.s = Service(r'D:\Python\spider\selenium\chromedriver.exe')
        self.driver = webdriver.Chrome(service=self.s,options=options)

（四）运行效果：

（马上要过年了，祝各位博友春节快乐，学业有成！！！）

posted @ 2022-01-29 10:31 Sunshine_y 阅读(285) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

TzySec

scrapy + selenium爬取网易新闻

公告