数据分析实战——38丨数据可视化实战:如何给毛不易的歌曲做词云展示?

  • 我们经常需要对分析的数据提取常用词,做词云展示
    • 比如一些互联网公司会抓取用户的画像,或者每日讨论话题的关键词,形成词云并进行展示
    • 再或者,假如你喜欢某个歌手,想了解这个歌手创作的歌曲中经常用到哪些词语,词云就是个很好的工具
    • 最后,只需要将词云生成一张图片就可以直观地看到结果。
  • 那么在今天的实战项目里,有 3 个目标需要掌握:
    • 1、掌握词云分析工具,并进行可视化呈现;
    • 2、掌握 Python 爬虫,对网页的数据进行爬取;
    • 3、掌握 XPath 工具,分析提取想要的元素 。
  • 如何制作词云
    • 首先我们需要了解什么是词云
      • 词云也叫文字云,它帮助我们统计文本中高频出现的词,过滤掉某些常用词(比如“作曲”“作词”),将文本中的重要关键词进行可视化
      • 方便分析者更好更快地了解文本的重点,同时还具有一定的美观度
    • Python 提供了词云工具 WordCloud
  • 给毛不易的歌词制作词云
    • 项目流程
      • 1、在准备阶段:我们主要使用 Python 爬虫获取 HTML,用 XPath 对歌曲的 ID、名称进行解析,然后通过网易云音乐的 API 接口获取每首歌的歌词,最后将所有的歌词合并得到一个变量。
      • 2、在词云分析阶段,我们需要创建 WordCloud 词云类,分析得到的歌词文本,最后可视化
  • 总结
    • 如果你用 Python 作为数据采集工具,就需要掌握 Python 爬虫和 XPath 解析
    • 我们今天讲到了词云工具 WordCloud,它是一个很好用的 Python 工具,可以将复杂的文本通过词云图的方式呈现
posted @ 2020-05-06 10:57  怡情养性长智  阅读(314)  评论(0编辑  收藏  举报