Scrapy爬取网易云音乐和评论（三、爬取歌手）

教程系列链接目录：

1、Scrapy爬取网易云音乐和评论（一、思路分析）
2、Scrapy爬取网易云音乐和评论（二、Scrapy框架每个模块的作用）
3、Scrapy爬取网易云音乐和评论（三、爬取歌手）
4、Scrapy爬取网易云音乐和评论（四、关于API）
5、Scrapy爬取网易云音乐和评论（五、评论）

项目GitHub地址：https://github.com/sujiujiu/WYYScrapy

前面有提到，spiders目录下的文件最好不要取和项目相同的名字，如果取了也没关系，有办法，在导入模块的最前面加上这句：

from __future__ import absolute_import

因为参考的文章太多了，我也找不到出处的链接了抱歉。

一、导入：

仍然提醒，要记得导入items的那几个模块、

二、最基本的代码结构是这样的：

class WangYiYunCrawl(scrapy.Spider):
    name = 'WangYiYun'
    allowed_domains = ['music.163.com']
    # start_urls = 'http://music.163.com/discover/artist/cat?id={gid}&initial={initial}'
    group_ids = (1001, 1002, 1003, 2001, 2002, 2003, 6001, 6002, 6003, 7001, 7002, 7003, 4001, 4002, 4003)
    initials = [i for i in range(65,91)] + [0]
    headers = {
            "Referer":"http://music.163.com",
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3067.6 Safari/537.36",
        }

    def start_requests(self):
        pass

   def parse(self,response):
        pass

最前面的那一大段前面都有说过，就不再提，这里的headers是自己写的，所以后面会调用到self.headers，只在settings.py文件里配置的这里可以省略，后面也不用用。

还剩allowed_domains。

首先讲一下我之前一直困惑的地方：start_urls 和start_requests()可以同时存在，也可以只要一个即可。
如果你写的是start_urls，那start_requests()这个函数可以省掉，直接在parse里对它进行处理，parse这个函数，就是爬虫的主程序，平常怎么写就怎么写。
然后这个response，我们先来看代码：

start_requests()这个函数在返回的时候，（对了，这个scrapy里返回用的都不是return，而是yield，迭代的意思），使用Request，可以看到它大多是和requests这个库很像，它的作用也是一样，返回是一个response，它特别的在于它最后一个参数，callback的值接的是回调函数，即你要把返回的response作为参数传递给哪个函数，这个函数后面不需要括号，所以一开始我也没搞懂它是个什么。
另外，这里调用headers是因为我将headers定义在了这个class里，如果是定义在settings.py里，这里可省略。
之后的函数都是这样，如果你要将什么参数穿到下一个函数，都可以用这个，而在回调函数里必须传入这个response参数。

关于parse函数，来自http://cuiqingcai.com/3472.html
parse这个函数的名称无所谓，但是最好带上parse（许多scrapy类型的文章都这么用，一眼看上去就知道是什么），并且保证传递的回调函数参数和这个函数名称一致即可。

三、parse函数

1、默认情况，scrapy推荐使用Xpath，因为response这个对象可以直接使用Xpath来解析数据，比如我代码中的：

response.selector.xpath('//ul[@id="m-artist-box"]/li')

response对象下直接就可以用selector.xpath。当然，除此之外，还有一种使用xpath的方法：

from scrapy.selector import Selector
selector = Selector(response.body)

关于Selector的用法，可以参考：
http://blog.csdn.net/liuweiyuxiang/article/details/71065004
但是这种方法并不是特别方便，所以直接使用response.selector.xpath的方法就好。

2、关于xpath的格式，参考中文官方文档吧，http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html。它跟lxml大同小异，但是还是有些区别，如图，这是四种基本的方法：

它返回的其实都是数组，xpath不用说，然后最常用的就是extract了，这个返回的列表里都是文本，而不是Selector对象

它获取的就是所有href的集合。
等价于BeautifulSoup这么用，只不过这个是获取单个的：

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.content,'lxml')
href = soup.find('a')['href']

然后简单提两个xpath简单而常用用法：
@href：这种@后面加什么的，都是某个标签的某个属性，其他比如src也是这样用。
text()：这个就是获取文本了。

3、

item = WYYArtistItem()

它就是那个对应某个爬虫所对应的数据库的字段，因为mongodb存储的格式类似json，在python里它就是个dict，当它是个dict就可以了。

4、使用scrapy.Request它可以传递的不只是url，它也可以传递整个item，使用meta，例如

yield scrapy.Request(url=url,meta={'item': item}, headers=self.headers, method='GET', callback=self.parse)

然后在parse()函数调用的时候，

def parse(self,response):
    item = response.meta['item']

但是并不建议这么用，因为很浪费资源。

另外，传递url的时候，除了用url，如果获得的url这段直接存进了item里，也可以直接用item['url']：

yield scrapy.Request(url=item['album_url'], headers=self.headers, method='GET', callback=self.parse_album_list)

最最最最重要的一点是，如果要存到数据库里，比如最后一个不用再Request了，那么一定要加上

yield item

这样才能存进数据库里，之前一直存不进去，一个就是前面忘了导入items，一个就是这里。

四、其他部分

后面基本都照这个模式来，因为我的顺序是：歌手--专辑页--专辑所有歌曲--歌曲，刚好每一个爬下来的url都可以直接传递给下一个函数，通过callback的方式。

这里最大的好处就是，比如歌手页，不用爬下来存一个列表，然后到了下一个函数，再遍历一遍这个列表，它每抓一个url，直接就能到下一个函数运行。
我运行的时候最大的一个问题就是‘yield item’那里，四个部分，它只存最后一个，搞得我一脸懵逼，后来想想大概要执行完这个，然后再把前面的改成yield item，才能都存进去。这个是一个很严重的问题。

所以最好就是在parse就是第一个地方就存，yield item，存完再改成yield Request再执行下一个函数。

代码补上了，但是肯定有瑕疵，因为最后运行的时候我测试了一下成功了，但是关于存取有些无奈，就弃用了。

posted @ 2021-10-06 17:50 苏酒酒阅读(292) 评论(0) 编辑收藏举报

刷新页面返回顶部

苏酒酒