叶翔---第一次个人编程作业
博客班级 | 2018 级计算机和综合实验班 |
---|---|
作业要求 | 作业要求 |
作业目标 | 采集数据、分析数据、展示数据 |
作业源代码 | https://github.com/Yeyuxian/first-personal-work |
学号 | 211804151 |
代码总行数:92 行
耗时情况
过程 | 分析时间 | 利用时间 | 完成情况 |
---|---|---|---|
爬取评论 | 30min | 2h | 部分完成 |
过滤评论 | 15min | 30min | 完成 |
评论拆分 | 20min | 1h | 完成 |
json转换 | 30min | 1h | 完成 |
制作词云图 | 20min | 1h | 完成 |
git上传 | 20min | 1h | 完成 |
思路分析
-
首先爬取评论,找到评论所在服务器的地址。因为每次点击加载更多评论都会有新的地址,所以首先得点击几次发现其中规律。
-
将爬取到的评论写入txt文档中,以便观察以及进行接下来的操作.
-
过滤评论,打开刚刚写的txt文档,会发现其中有不少非中文字符以及表情,此时需要过滤掉这些字符和表情,才能进行拆分.
-
评论拆分,利用jieba将刚刚过滤好的评论进行拆分并排序,可以直观的看到每个关键词出现的次数
-
转换成 json 文件,将拆分好的评论写入字典后转换成json文件
-
制作词云图,利用 echarts 可以很方便地作出词云图