夏子恒——第一次个人编程作业

这个作业属于哪个课程	2018级计算机和综合实验班
这个作业要求在哪里	第一次个人编程作业
这个作业的目标	爬取网页信息，基本的数据处理（分词），学习使用echarts插件，绘制html页面，进一步熟悉GitHub的使用
作业源代码	first-personal-work
学号	211808331

大致流程

这次作业刚发布时，我简单看了一下作业要求内容，说实话我是拒绝的o(╥﹏╥)o。毕竟上一次作业才做完不久，喜庆的新年也还未完全结束~~（其实主要是爬虫掌握的实在不咋滴...）~~，突然就一份“难搞”的作业砸我脸上，~~我直接@#￥#%￥#**……~~。虽然挣扎了几天，但随着提交时间的临近以及陆续有同学提交作业，我也还是准备试着做一做。
既然决定要试着做一做，那就得选择一个题目。因为爬虫实在辣鸡，起初是想选题目二疫情地图的，毕竟有现成的数据，但是上手尝试之后发现...爬数据是不用了，但是之后的数据处理实在是搞不太来，拿到数据也整不出个名堂来（裂开），即便查阅一些资料也不太明白，再加上选择题目二的同学比较少，没有什么可以问的同学，实在难以上手，最终只能作罢。
在这期间也看了许多同学交的作业，空余时间也看了一下第一题，简单思考了一些，查了一部分相关资料，复习了一点之前的爬虫知识。于是在放弃第二题之后转向了第一题……

首先爬取数据，进入腾讯视频电视剧《在一起》第一集页面后滑到页面底部查看评论，按F12并刷新，点击底部的查看更多评论
展开后可以发现评论都在‘content’中，并且存放在这个链接中
进一步查看后发现，每一页的评论URL只有两串数字不同。并且后面那串是上一页+1。前面那串看似没有规律。
但打开URL便发现last中的数值正是下一页cursor=中的数值，之后的页面也依旧如此。
综合上述规律进行爬取，部分代码如下。
以下是爬取的部分评论数据。
评论数据爬取完之后，就是进行分词，简单看了后选择了jieba分词器。因为之前没有用过pycharm还特意查了一下pycharm如何安装模组...但是不知道为什么一直安装不下来，老是等了半天然后告诉我超时安装失败？？？尝试多次还是不行之后没办法直接用python，结果还是没有安装成功，这一波下来就浪费了不少时间[○･｀Д´･ ○]。最后询问同学之后为了节约时间直接把安装后的文件拷贝到python文件夹下了...
解决了jieba的安装之后开始分词，使用比较生疏也是在同学的帮助下才完成。以下是部分代码。
部分分词数据。

虽然过程艰难痛苦，但总归是把这难搞的作业磨完了。主要一方面之前学过的内容掌握的不太好再加上遗忘，实际用起来还是比较困难；另一方面在第一点的基础上，遇到一些新的东西的学习上也有些困难，以及这方面相关的学习能力不够强。
~~也许这也是我坚定考公的原因之一吧，不过技多不压身，即便以后真的走上了公务员这条路，还是希望学过的东西在需要的时候能用上吧。~~
不过通过这次作业收获也是有的，毕竟整个过程对我来说也不算短了，期间查阅的东西，看到的学到的新东西也还是有那么一些些的，以及之前掌握的不好的知识，遗忘的知识也得到了些许的加强。

posted @ 2021-02-27 02:43 Zephyrus333 阅读(94) 评论(0) 编辑收藏举报

刷新页面返回顶部