刘浩毅---第一次个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS/
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 采集腾讯视频里电视剧《在一起》的全部评论信息, 将采集到的评论信息做成词云图
作业源代码 https://github.com/1362776157/first-personal-work
学号 211811129
1.流程
步骤 简易做法
---------- ---------
数据采集 使用正则提取
词频统计 利用jieba进行分析
绘制词云图 使用worldcloud库进行绘制
2.具体步骤
(1)数据采集
根据《在一起》的所有评论页如图所示
按下F12刷新并点击底部的加载更多可以发现
这时打开这些js发现评论就在content里面
多次点开底部的加载更多可以发现该request url的地址是有规律的,
这是第一页

这是第二页
所以尾部的那一串数字加一就是下一页面的url,其次会发现url的cursor变化多端,将第一页评论的url打印出来查询第二页的sursor数值发现下一页的sursor数值为当前页最后一名用户的id
此为当前页的最后一名用户id

此为下一页的url中的cursor值

发现这些规律之后便开始使用正则爬取

将爬取的数据保存至"评论.txt"文件中
(2)词频统计
第13行的代码为统计出现频率前100的词语(该数值只为测试用)

完整代码

将统计的词频保存至"comments.json"
(3)绘制词云图
(这里使用开源库里的echart.js)

效果图如下

3.git操作
(1)克隆到本地

(2)切换分支

(3)往本地添加修改后的文件

(4)每次修改都得git add .之后git commit(由于是第一次使用所以是全部做完才上传,导致commit信息不足)

(5)上传git push

参考资料

标题 网址
Python基于jieba的中文词云 https://www.cnblogs.com/yuxuanlian/p/9781762.html
Python爬虫实战:爬取腾讯视频的评论 https://my.oschina.net/u/4397001/blog/3421754
创建与合并分支 https://www.liaoxuefeng.com/wiki/896043488029600/900003767775424

小结:熬了会夜把这作业肝完了,基本上除了爬取数据以外其他的全靠度娘,原本想着看下题目能做多少做多少因为我没多少时间复习(3.13教资),结果就停不下来了ε(┬┬﹏┬┬)3都已经凌晨2.30了!!博文就草草的写了日后有时间再说,希望这是假期的最后一次作业o(╥﹏╥)o

posted @ 2021-02-19 00:36  ruanruanmianhuatang  阅读(342)  评论(2编辑  收藏  举报