钟华翼---第一次编程作业
博客班级 | 2018级计算机和综合实验班 |
---|---|
作业要求 | 作业要求 |
作业目标 | 爬取腾讯视频《在一起》并且进行高频词统计和词云图展示 |
作业源代码 | first-personal-work |
学号 | 211806248 |
规划
步骤 | 时间 |
---|---|
爬取评论 | 3h |
jieba 分词 | 2h |
生成词云图 | 3h |
上传 Github | 2h |
数据采集
因为上学期爬虫学习的并不是很好,所以花费了点时间,不懂的地方询问了同学。
进入腾讯视频评论区,按 F12,对比发现只有 last_id 是不同的
打开 js 界面,有 v2 开头的点开可以看到如下界面
找到网页代码的规律后,开始编写代码。
这里是用正则匹配 last,内容保存在 comment.txt 中
内容如下
数据处理
在 pycharm 中下载了 jieba 库再通过读取之前爬取的结果统计出了高频词和出现的次数。
统计了共 30 个高频词
数据分析展示
从网上下载 ECharts 的插件后百度了模板将数据输入。
遇到的问题
(1)爬虫知识掌握的不牢固,花费的许多的时间。
(2)jieba 分词库进行分词处,无从下手只能请教了同学。
(3)ECharts 的插件不知道如何下载和使用。
(4)分支分别合并到主分支时,有一个分支一直无法合并成功。