刘浩毅---第一次个人编程作业

博客班级	https://edu.cnblogs.com/campus/fzzcxy/2018CS/
作业要求	https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标	采集腾讯视频里电视剧《在一起》的全部评论信息, 将采集到的评论信息做成词云图
作业源代码	https://github.com/1362776157/first-personal-work
学号	211811129
1.流程
步骤	简易做法
----------	---------
数据采集	使用正则提取
词频统计	利用jieba进行分析
绘制词云图	使用worldcloud库进行绘制
2.具体步骤
（1）数据采集
根据《在一起》的所有评论页如图所示
按下F12刷新并点击底部的加载更多可以发现

这时打开这些js发现评论就在content里面

多次点开底部的加载更多可以发现该request url的地址是有规律的，
这是第一页

这是第二页
所以尾部的那一串数字加一就是下一页面的url，其次会发现url的cursor变化多端，将第一页评论的url打印出来查询第二页的sursor数值发现下一页的sursor数值为当前页最后一名用户的id
此为当前页的最后一名用户id

此为下一页的url中的cursor值

发现这些规律之后便开始使用正则爬取

将爬取的数据保存至"评论.txt"文件中
（2）词频统计
第13行的代码为统计出现频率前100的词语(该数值只为测试用)

完整代码

将统计的词频保存至"comments.json"
（3）绘制词云图
（这里使用开源库里的echart.js）

效果图如下

3.git操作
（1）克隆到本地

（2）切换分支

（3）往本地添加修改后的文件

（4）每次修改都得git add .之后git commit(由于是第一次使用所以是全部做完才上传，导致commit信息不足)

（5）上传git push

参考资料

标题	网址
Python基于jieba的中文词云	https://www.cnblogs.com/yuxuanlian/p/9781762.html
Python爬虫实战：爬取腾讯视频的评论	https://my.oschina.net/u/4397001/blog/3421754
创建与合并分支	https://www.liaoxuefeng.com/wiki/896043488029600/900003767775424

小结：熬了会夜把这作业肝完了，基本上除了爬取数据以外其他的全靠度娘，原本想着看下题目能做多少做多少因为我没多少时间复习(3.13教资)，结果就停不下来了ε(┬┬﹏┬┬)3都已经凌晨2.30了！！博文就草草的写了日后有时间再说，希望这是假期的最后一次作业o(╥﹏╥)o

posted @ 2021-02-19 00:36 ruanruanmianhuatang 阅读(342) 评论(2) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

ruanruanmianhuatang

刘浩毅---第一次个人编程作业

公告