钟华翼---第一次编程作业

博客班级 2018级计算机和综合实验班
作业要求 作业要求
作业目标 爬取腾讯视频《在一起》并且进行高频词统计和词云图展示
作业源代码 first-personal-work
学号 211806248

规划

步骤 时间
爬取评论 3h
jieba 分词 2h
生成词云图 3h
上传 Github 2h

数据采集

因为上学期爬虫学习的并不是很好,所以花费了点时间,不懂的地方询问了同学。
进入腾讯视频评论区,按 F12,对比发现只有 last_id 是不同的
打开 js 界面,有 v2 开头的点开可以看到如下界面

找到网页代码的规律后,开始编写代码。
这里是用正则匹配 last,内容保存在 comment.txt 中

内容如下

数据处理

在 pycharm 中下载了 jieba 库再通过读取之前爬取的结果统计出了高频词和出现的次数。


统计了共 30 个高频词

数据分析展示

从网上下载 ECharts 的插件后百度了模板将数据输入。

遇到的问题

(1)爬虫知识掌握的不牢固,花费的许多的时间。
(2)jieba 分词库进行分词处,无从下手只能请教了同学。
(3)ECharts 的插件不知道如何下载和使用。
(4)分支分别合并到主分支时,有一个分支一直无法合并成功。

参考资料

jieba“结巴”中文分词:做最好的 Python 中文分词组件
ECharts

posted @ 2021-02-26 23:36  zhonghuayi  阅读(44)  评论(0编辑  收藏  举报