Python爬虫:通过做项目,小编了解了酷狗音乐的加密过程
1.前言
小编在这里讲一下,下面的内容仅供学习参考,切莫用于商业活动,一经被相关人员发现,本小编概不负责!读者切记切记。
2.获取音乐播放列表
其实,这就是小编要讲的重点,因为就是这部分用到了加密。
我们在搜索栏上输入我们想听的音乐,小编输入:刺客
- 是不是看到了一系列音乐,怎样得到这些音乐的一些信息呢?(这里指的音乐信息是指音乐的hash值和音乐的album_id值【这两个参数在获取音乐的下载链接那里会用到】,当然还包括音乐的名称【不然怎么区别呢?】)。
- 由于这一系列音乐是动态加载出来的,也就是如果直接解析这个界面的数据,根本得不到,这个时候我们就应该来到如下这个界面了。
是不是可以看到我们刚才看到的那些音乐了,而且展开其中一首音乐,可以发现上述小编讲的哪些信息好像都有了呀!
我们看一下这个请求的网址吧!发现这是一个get请求,请求数据如下:
- 小编搜索了多首歌曲,发现它们的请求参数有一个共同点,那就是除了keyword、clienttime、mid、uuid和signature这几个参数值不同之外,其他的都差不多,而clienttime本意就是客户端时间,它的值是一个时间戳,mid和uuid的值和clienttime一样的,keyword它的值就是我们搜索的关键词,现在我们需要的就是搞懂signature这个参数值到底是什么呀!
- 小编得到这个signature参数值的长度为32,觉得应该是使用了加密,将一些初始数据,把它加密得到的,那么怎样得到这个初始数据呢?
- 小编点击了这个网站所有的js文件,发现这个参数值在这个js文件下
- 是不是看到了md5这个函数呀!这应该就是那个加密函数了吧!而o.join("")就应该是那个初始数据了,o是一个js数组。
- 现在知道要获取o的值,怎样获取呢?肯定是使用断点呀!我们在signature周围打上相应的断点,然后执行断点操作(这个小编就不一一赘述了,小编使用js断点还是有一点懵逼的,就不在这里误导大家了)。
- 上述图片就是那个js数组o中的值了,经过对这些数据进行分析,发现其实这其中绝大部分值就是我们请求网址的哪些参数值,读者觉得呢?
- 整个加密算法如下:
- 这也太长了吧!原本小编打断使用python来模拟这个加密过程,但是现在小编看到这么长,放弃了,但是并不代表加密过程就无法实现,小编查阅资料,发现原来python可以执行js语句,我们是不是只需结合python和js,就能实现这个加密了呢?开干!
- 代码如下:
-
看看运行结果吧!
-
是不是这样就获取我们想要的数据了呀!我们只需使用json解析这些数据,就可以获取小编在上面提到的那两个参数了。【音乐的hash值和音乐的album_id值】
3. 得到歌曲的下载链接
- 在上述第二点那里讲到音乐的hash值和音乐album_id值,为什么要提到它们俩呢?当然是为了给第第三点这里做铺垫的哈!
- 这个过程小编不会讲的很详细,因为小编今天讲的重点是这个加密哈!
我们点击一首歌播放,来到上述界面,可以看到歌曲的下载链接,这个请求的参数如下:
- 这些请求参数中是不是看到我提到的那两个参数呀!
- 通过分析发现,其实只需以下三个参数即可请求成功!如下
- 相应的代码小编就不一一发出来了,相信聪明的读者看了小编的本篇博客,定然可以实现酷狗音乐的下载,不懂的问题读者可以到评论区问我哦!