夏子恒——第一次个人编程作业

这个作业属于哪个课程 2018级计算机和综合实验班
这个作业要求在哪里 第一次个人编程作业
这个作业的目标 爬取网页信息,基本的数据处理(分词),学习使用echarts插件,绘制html页面,进一步熟悉GitHub的使用
作业源代码 first-personal-work
学号 211808331

大致流程

事项 时间
选题确定及准备 2-3d
数据采集 2d
数据处理 5h
绘制html词云图 3h
博客编辑 2h

前期

  • 这次作业刚发布时,我简单看了一下作业要求内容,说实话我是拒绝的o(╥﹏╥)o。毕竟上一次作业才做完不久,喜庆的新年也还未完全结束(其实主要是爬虫掌握的实在不咋滴...),突然就一份“难搞”的作业砸我脸上,我直接@#¥#%¥#**……。虽然挣扎了几天,但随着提交时间的临近以及陆续有同学提交作业,我也还是准备试着做一做。
  • 既然决定要试着做一做,那就得选择一个题目。因为爬虫实在辣鸡,起初是想选题目二疫情地图的,毕竟有现成的数据,但是上手尝试之后发现...爬数据是不用了,但是之后的数据处理实在是搞不太来,拿到数据也整不出个名堂来(裂开),即便查阅一些资料也不太明白,再加上选择题目二的同学比较少,没有什么可以问的同学,实在难以上手,最终只能作罢。
  • 在这期间也看了许多同学交的作业,空余时间也看了一下第一题,简单思考了一些,查了一部分相关资料,复习了一点之前的爬虫知识。于是在放弃第二题之后转向了第一题……

中期

  • 首先爬取数据,进入腾讯视频电视剧《在一起》第一集页面后滑到页面底部查看评论,按F12并刷新,点击底部的查看更多评论
  • 展开后可以发现评论都在‘content’中,并且存放在这个链接中


  • 进一步查看后发现,每一页的评论URL只有两串数字不同。并且后面那串是上一页+1。前面那串看似没有规律。


  • 但打开URL便发现last中的数值正是下一页cursor=中的数值,之后的页面也依旧如此。

  • 综合上述规律进行爬取,部分代码如下。
  • 以下是爬取的部分评论数据。
  • 评论数据爬取完之后,就是进行分词,简单看了后选择了jieba分词器。因为之前没有用过pycharm还特意查了一下pycharm如何安装模组...但是不知道为什么一直安装不下来,老是等了半天然后告诉我超时安装失败???尝试多次还是不行之后没办法直接用python,结果还是没有安装成功,这一波下来就浪费了不少时间[○・`Д´・ ○]。最后询问同学之后为了节约时间直接把安装后的文件拷贝到python文件夹下了...
  • 解决了jieba的安装之后开始分词,使用比较生疏也是在同学的帮助下才完成。以下是部分代码。
  • 部分分词数据。

后期

  • 分词完成之后就是绘制词云图了。echarts插件第一次接触,也是通过询问同学才成功安装以及初步了解如何使用。我最终截取了部分数据绘制词云图,网页效果如图。
  • 最后将文件上传到GitHub即可。因为是全部弄完才上传所以emmmm……QAQ。

复盘

  • 虽然过程艰难痛苦,但总归是把这难搞的作业磨完了。主要一方面之前学过的内容掌握的不太好再加上遗忘,实际用起来还是比较困难;另一方面在第一点的基础上,遇到一些新的东西的学习上也有些困难,以及这方面相关的学习能力不够强。
  • 也许这也是我坚定考公的原因之一吧,不过技多不压身,即便以后真的走上了公务员这条路,还是希望学过的东西在需要的时候能用上吧。
  • 不过通过这次作业收获也是有的,毕竟整个过程对我来说也不算短了,期间查阅的东西,看到的学到的新东西也还是有那么一些些的,以及之前掌握的不好的知识,遗忘的知识也得到了些许的加强。

参考资料

究极福利带你Python爬虫| 爬取腾讯视频评论
jieba
echarts官方教程
廖雪峰git教程
Git与GitHub笔记

posted @ 2021-02-27 02:43  Zephyrus333  阅读(94)  评论(0编辑  收藏  举报