柯添赐---第一次个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 爬取腾讯视频《在一起》评论并且进行高频词统计、词云图展示和上传github
作业源代码 https://github.com/15080359487/first-personal-work
学号 211806220

学习记录

步骤 方法 时间
数据采集 Python爬虫 4h
数据处理 jieba分词 3h
制作词云图 echarts.js 4h
上传 Github 和写博客 3h

一、数据采集
爬取腾讯视频《在一起》评论,发现评论使用了Ajax 异步刷新技术,按下F12,并多次加载更多评论,发现每次加载都会出现新的v2?callback且有规律的变化。

观察发现URL中只有cursor和source属性值会改变,最后一个值source为递增+1的数字,而后一页评论的cursor值在前一页评论中data的last属性值
使用正则匹配出所需要的评论

保存为json文件

二、数据处理
使用jieba库进行分词

在上一步保存全部评论后,发现json打不开,所以又改成以txt文件保存。在使用时发现,如果不加入停用词,提取的高频词中会参杂许多标点符号和语气词等。

在网站上找了常用的停用词txt以及一遍遍的运行,修改停用词txt后,即可。

三、制作词云图
利用js插件echarts.js,绘制词云图。因为之前没有学过html的内容,所以从网上下载echarts的插件后百度了模板将数据输入



四、上传 Github
1.新建一个文件夹,右键点击"Git Bash Here",进行初始化,连接仓库,将远程仓库的内容克隆到本地仓库。

2.切换分支,将文件添加到暂存区再提交



3.将本地分支仓库推送到远程仓库。

4.切换分支到 main,再用 git merge 合并,最后提交到远程仓库 git push。

五、遇到的问题
经常会被 Github 限制访问

posted @ 2021-02-26 16:37  柯添赐  阅读(61)  评论(0编辑  收藏  举报