陈棋---第一次个人编程作业
博客班级 | 2018级计算机和综合实验班 |
---|---|
作业要求 | 第一次个人编程作业 |
作业目标 | 数据采集、数据可视化 |
作业源代码 | first-personal-work |
学号 | 211806205 |
步骤 | 耗时 |
---|---|
爬取评论 | 3h |
数据处理 | 3h |
数据展示 | 2h |
代码提交 | 0.5h |
一 数据采集
1.进入评论区,大概能够知道是异步加载。
https://coral.qq.com/article/5963120294/comment/v2?callback=article5963120294commentv2&orinum=10&oriorder=o&pageflag=1&cursor=0&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=1&=1614181601885
https://coral.qq.com/article/5963120294/comment/v2?callback=article5963120294commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6716706003418103507&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=1&=1614181601886
https://coral.qq.com/article/5963120294/comment/v2?callback=article5963120294commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6716701977205046126&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=1&=1614181601887
https://coral.qq.com/article/5963120294/comment/v2?callback=article5963120294commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6716704031706127554&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=1&=1614181601888
在对比了上述四个url之后,发现只有cursor和_的值不同。其中cursor对应的前一页的last字段,而_则是每次+1。
2.在获取每一页的评论时,同时获取当前页的cursor字段值,用来获取下一页的评论。
3.在判断循环条件时,原先的想法是根据网页源码里的hasnext字段来进行判断,但是正则表达式一直匹配不到,这个不知道问题出在哪里。
后来换了一种思路,网页源码里的content总数<1时,退出循环,但是这样的话,对于总的一个页数不能做到一个很好地把握,比如说在评论增加到超出我设置的页数,这样就无法获得所有的评论。
4.最后将获取到的评论内容保存到contents.txt文件中。
二 数据处理
通过百度了解到,大概是要把数据处理成类似于{name:"",value:""}的格式。
这里使用了jieba来进行分词,模式为精确模式,对获取到的评论进行处理。
三 结果展示
因为在此之前没怎么接触过JavaScript,这里的是借鉴了别人的模板,使用自己处理后的数据,大概就是下面这样。
四 代码上传
1.git clone 仓库地址 将远程仓库克隆到本地
2.git branch 分支名 重复两次,分别创建crawl和chart分支
3.git checkout 分支名 进入到相对应的分支
4.git add 文件名 添加文件到暂存区
5.git commit -m "注释" 注释
6.git push origin 分支名 将暂存区内的文件推送到远程仓库
五 总结
这次的作业有好多都是第一次接触,比较难一些,也学到了很多吧。还有一个就是加深了对git的使用。