爬取网易云音乐评论

  最近想做一个项目,需要大量的数据,所以就想爬取一下网易云音乐的评论,虽然不知道可以用来干嘛,先权当作一个python爬虫项目了,通过这个项目发现自己在python方面的很多东西都记得不清了,最近需要好好补一补。

方法:

  1.首先,网易云web页面的源代码中并没有我们所需要的信息通过知乎回答(https://www.zhihu.com/question/36081767)可以看到我们所需要的评论等信息是通过一个psot请求返回的,保存在json格式中,

   而post请求访问需要一个加密参数data_form,其加密过程在该知乎回答中有解答。

  2.虽然加密代码有,但由于我的python版本号是3.6.5的,所以在windows下安装pycyrpto模块的时候会有一些问题,这些问题可以通过百度解决。

  3.扩展了一下代码,将读取的评论,评论人id和评论点赞数写入本地txt文件,但是如果某首歌下评论数太多,当爬取一定量评论时,会无法访问歌曲的评论页面,需要添加一下代理。

代码已经上传到:https://github.com/Wobum/WYmusic_content_crawl

 

 

思考:

  自己的项目经验太少,现在基础的东西已经学得差不多了,以后要通过实践掌握这些东西。这次项目知识爬取某一首歌下面的评论,需要自己提供歌曲的url连接,最近可以尝试通过读取某一个歌单下面的歌曲读出歌曲id,将获得数据保存入数据库中,最近在学hadoop中,可以尝试通果hadoop进行分析。

 

posted @ 2018-05-13 23:28  我不  阅读(376)  评论(0编辑  收藏  举报