赵智兴---第一次个人编程作业

博客班级 2018级计算机和综合实验班
作业要求 第一次个人编程作业
作业目标 爬取腾讯视频里电视剧《在一起》的全部评论,将评论信息做成词云图,将代码提交至Github
作业源代码 Github
学号 211808583
过程花费时间
分析数据1h
代码实现2h
词云图实现3h
上传代码1h
写博客1h

一、数据采集

看到作业要求后便先进入腾讯视频《在一起》的评论页面,F12进入查看,发现并不好直接利用当前网页地址直接爬取评论内容。于是点击js,下来显示更多评论时找到了规律。

点击链接,再打开preview便能看到当前的十条用户的评论和其他内容,于是可以确定当前的Request URL可用作请求的网页,此时只能爬取此链接下的几条评论,于是继续寻找规律。

依次点开各个链接,对比发现cursorsource=1&=的值在变化,source=1&=在做加一而cursor的值变化随机


再进一步查看,点击链接进入页面查看其源代码时,发现下一个cursor的值对应当前的last


于是数据的分析便大致完成了
开始逐步进行数据的爬取,有了前期的分析,代码实现过程就相对容易,开始先用正则爬取到了一个页面的last,再将此last用在cursor上,如期爬到了下个页面的last

大致的问题解决后,于是用for循环爬取所有的评论

二、进行数据处理
进行分词和词频统计需要用到jieba库,由于在之前的学习中并没有用到过,所以便先在网上进行学习jieba的用法,并且询问同学。统计出了前一百的热词

三、数据分析展示
然后就得面临做词云图的困扰,第一次接触echarts.js,所以就直接百度,到了官网连下载都成了问题,于是直接找同学要了echarts的文件。
前期的准备做好了就得开始代码部分了,直接百度,然后套进去运行,在带入代码的时候也遇到了困难,用json文件地址代入得方法总是运行不出来,最后实在没有办法就直接将内容套进去了

以下就是效果图

将上面的数据信息和所要的东西全弄好后,便要将代码上传到github,虽然上一次作业有用过github,但是还是对它一知半解,特别此次又需要用上分支这些,看了就更觉得头大了。看了一些参考资料,也看了看已完成同学的优秀作业,于是我决定问同学,让他们教我直接上手
git过程充满了艰辛,重复了三四次终于完成了这些步骤
其中git push时总出现了fatal :已取消一个任务

最后进入github的个人页面,也看到了上传的内容,就放心了

参考资料
Python入门:jieba库的使用
基于echarts的词云用
ECharts介绍及使用方法

posted on 2021-02-24 15:54  zhao-zhixing  阅读(113)  评论(3编辑  收藏  举报

导航