第一次个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 数据采集与处理,数据可视化--词云图,git的使用
作业源代码 https://github.com/WKJshadow/-
学号 211806183

简单的时间记录

时间分布 分析思路 编写代码 查找知识点
12h+ 3h+ 5h+ 4h+

过程与思路

  • 由于没有学过爬虫,百度查询的过程着实废了一番功夫,不得已询问了其他专业的同学(在此十分感谢他的帮助)
    打开视频网页的评论区,开启网页开发者工具在上边寻找评论规律,找到规律就十分好办,直接开写代码。
  • 思路:抓取url地址 --> 遍历所有url --> 提取评论 --> 保存结果为json
  • 主要代码:

数据处理

  • 用jieba模块进行分词,统计评论中的高频词汇及其数量
    没有使用过分词模块,百度学习了一下jieba的基础
  • 主要代码

数据分析展示

  • 将采集到的评论信息做成词云图
    此前没有接触过这方面知识,忙活了许久还是不可以显示词云图(在此再次感谢朋友的倾囊相助)
    结合js插件echarts.js和echarts-wordcloud.min.js完成index.html
  • 词云图展示

参考文献

posted @ 2021-02-26 20:49  灰色与青丶  阅读(61)  评论(1编辑  收藏  举报