陈嘉浩---第一次个人编程作业

博客班级 2018级计算机和综合实验班
作业要求 第一次个人编程作业
作业目标 数据采集与处理,认识词云图,git分支的了解
作业源代码 我的github
学号 211806204
学习内容 学习时间
爬取评论 2h
jieba分词 1h
制作词云图 4h
提交代码 1h

一、爬取评论
我爬取评论的链接
我这里利用上学期学到的python爬虫知识,获取json数据页,分析规律,将获取的两个url进行对比:
https://coral.qq.com/article/5963120294/comment/v2?callback=article5963120294commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6716706003418103507&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=1&=1614156340075
  https://coral.qq.com/article/5963120294/comment/v2?callback=article5963120294commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6716701977205046126&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=1&=1614156340076
  依次点开两个链接,可以发现只有cursor和source=1&=的值在发生变化,其中source=1&=在+1而cursor的值变化随机


可以发现下一个cursor的值对应当前的last值
开始先用正则爬取到了一个页面的last,再将此last用在cursor上,如期爬到了下个页面的last
大致的问题解决后,于是用for循环爬取所有的评论,并正则提取,我这里只爬取了前1000条评论。

二、jieba分词
用pip install jieba命令进行下载,看网上的教学视频发现大部分的echarts代码的data部分基本都是{"name":,"value":}形式的json格式数据,后续可以用在eacharts上,所以我也将其分词成类似格式的数据。

三、eacharts制作词云图
说实话看了很久官方的快速入门和教程,也问了很多同学,最后还是选择了借鉴官方github的模板进行修改。想试着用json文件地址代入却总是运行不出来,还是选择了把json文件里data的数据代进去,把里面词频低于11的都删去,得到下图。

四、提交代码
1.克隆仓库到本地: git clone https://github.com/z2843506317/first-personal-work.git
2.进入克隆到本地的文件夹: cd first-personal-work
3.新建分支: git switch -c crawl
4.将想要上传的文件复制到文件夹,一个个上传: git add comment
5.编辑注释:git commit -m "注释"
6.重复4、5两步后一起上传: git push -u origin crawl
7.操作完成后继续完成另一分支,用git checkout <分支名> 切换
8.合并分支:git merge crawl;git merge chart
9.切换到main上传:git push

用到的一些新代码
git clone <你的仓库地址> 克隆远程仓库到本地
git checkout <分支名> 切换分支
git merge <分支名>合并分支到当前分支
git commit --amend 进入vim编辑器修改注释
本次作业感受
本次作业花的时间很久,在词图云上花了大半的时间,新的东西有点多,没有老师系统性的教学,靠自己学习有点困难,希望能早日开始上课。

参考范文
Python爬取腾讯视频评论的思路详解
关于Echarts词云图自定义形状如何实现
廖雪峰博客-git
创建与合并分支

posted @ 2021-02-24 19:28  陈嘉浩  阅读(33)  评论(0编辑  收藏  举报