第一次个人编程作业
博客班级 | https://edu.cnblogs.com/campus/fzzcxy/2018CS |
---|---|
作业要求 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732 |
作业目标 | 数据采集与处理,数据可视化--词云图,git的使用 |
作业源代码 | https://github.com/WKJshadow/- |
学号 | 211806183 |
简单的时间记录
时间分布 | 分析思路 | 编写代码 | 查找知识点 |
---|---|---|---|
12h+ | 3h+ | 5h+ | 4h+ |
过程与思路
- 由于没有学过爬虫,百度查询的过程着实废了一番功夫,不得已询问了其他专业的同学(在此十分感谢他的帮助)
打开视频网页的评论区,开启网页开发者工具在上边寻找评论规律,找到规律就十分好办,直接开写代码。 - 思路:抓取url地址 --> 遍历所有url --> 提取评论 --> 保存结果为json
- 主要代码:
数据处理
- 用jieba模块进行分词,统计评论中的高频词汇及其数量
没有使用过分词模块,百度学习了一下jieba的基础 - 主要代码
数据分析展示
- 将采集到的评论信息做成词云图
此前没有接触过这方面知识,忙活了许久还是不可以显示词云图(在此再次感谢朋友的倾囊相助)
结合js插件echarts.js和echarts-wordcloud.min.js完成index.html - 词云图展示
参考文献
- https://github.com/librauee/reptile
- https://blog.csdn.net/weixin_41695564/article/details/79755797?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-14&spm=1001.2101.3001.4242
- https://github.com/fxsjy/jieba
- https://blog.csdn.net/qq_40309183/article/details/80644047
- https://blog.csdn.net/lyc44813418/article/details/88930046
- https://blog.csdn.net/weixin_37861326/article/details/80347960