徐鑫泽---第一次个人编程作业

这个作业属于哪个课程 <2018 级计算机和综合实验班>
这个作业要求在哪里 <作业要求的链接>
这个作业的目标 <数据采集,可视化,前端>
作业源代码 first-personal-work
学号 <211808579>
计划安排
步骤 计划时间
---------- --------------------------------------
理解作业要求 30分钟
计划如何完成 30分钟
相关资料的学习 2天
创建仓库并连接 15分钟
编写爬虫代码 1天
词频统计及json转化 半天
制作此云图 半天
git上传 1小时
  1. 编写爬虫

首先进入网页观察评论源码

对网页进行分析发现每当点击更多评论时会发现有新地址跳出

通过比较网址发现只有 cursor 和 source 进行了改变,其他是不变的,source 是在第一个的基础上进行加一操作,所以只需要获取到 cursor 即可。

  1. 编写爬取内容



3. 编写json

在做词频统计的时候,在import jieba时出现问题

然而在终端下载时显示已经下载过jieba,通过百度了解到可能因为默认的安装路径不对,而直接在终端下载
可能会面临网络不稳定等多种因素(本人亲自下了几次都失败了,又慢又完不成),于是乎下载国内的镜像,并且修改下载路径终于可以使用jieba。

参考网页

pycharm安装jieba包(中文词分解析)
呜。。。这个jieba真的花了我太多时间了

而后进行频数统计在完成代码的过程中遇到报错“UnicodeDecodeError: 'utf-8' codec can't decode byte”一时间也不知道如何
解决,最后搜索得到了解答

python 报错"UnicodeDecodeError: 'utf-8' codec can't decode byte"的解决办法

哈哈正如他所说的“原文件的编码方式是“ANSI”. 哦哦哦哦哦哦哦哦哦哦哦。。。。不报错才怪呢!”

  1. 制作词云图

在顺利完成js之后,就到了词云图的环节,在这里我要感谢我的同学李明特,他在这个环节帮到了我许多,还给我提供了一个比较丰富的资源,并且跟我讲解了制作词云图的方法,这可以说是到现在为止比较顺利的缓解了!!

  1. 将所有文件上传到远程仓库

将所有的文件一一git add 到暂存区,在经过 get commit -m 上传

合并分支

最后git push 将所有文件传输到远程仓库中

  1. 个人总结
    总的来说这次的作业并不算顺利,有许多爬虫的知识都遗忘了,需要拿书现学。
    对于git的操作和用途了解很少,很难快速准确的达到要求。
    在库的安装上花费了比较多的时间,需要加强练习。
posted @ 2021-02-27 00:28  SeryKK  阅读(69)  评论(2编辑  收藏  举报