黄婉佳---第一次个人编程作业

一、作业介绍

博客班级	https://edu.cnblogs.com/campus/fzzcxy/2018CS
作业要求	https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标	数据采集，数据处理，数据分析
作业源代码	https://github.com/Vongwinga/first-personal-work
学号	211806216
二、时间分布
步骤	具体做法
----------	-----------------
需求分析	审题及相关参考资料的阅读
数据采集	用python采集腾讯视频里电视剧《在一起》的全部评论信息
数据分析与处理	采集的信息转为json格式，利用jieba分词处理
词云图展示	用WordCloud生成词云图，利用阿里云天池平台
代码上传	上传到github
三、具体过程
审题花了比较久的时间，确认了所需的实现方法。
1.数据采集

利用上学期爬虫的基础，条件发射的想利用Jupyter Notebook来完成，由于运行作业的电脑上未安装相关插件，只能另寻出路，使用Pycharm来完成。
在编码前先是查询了爬取视频评论的相关资料，从优秀的人手上学习方法。了解后在Xpath和正则中选择了相对熟悉的正则，之后在PyCharm中进行所需库的导入。
跟上学期爬虫类似，在谷歌开发者工具的帮助下找到想要获取的内容，发现源代码格式。
![](https://img2020.cnblogs.com/blog/1539113/202102/1539113-20210226140853721-1189104592.png)
![](https://img2020.cnblogs.com/blog/1539113/202102/1539113-20210226141049070-394828195.png)
（截图是在阿里云天池平台 因为后期PyCharm操作不好报错n次！）

2.数据分析与处理
但是上学期爬虫习惯性保存为txt与csv的格式，这时候保存txt后需要转为json（题目所要求的格式），后来用天池做云图时都更正过来了，就删去该部分无用功代码！
期间试过直接将保存为comments.txt的代码改成 comments.json 但是报错了，后来就开始搜索资料找方法，最后发现犯了个最低级的错误没有import json
整理了一下就成功得到了json文件了，然后是开始觉得最难的,未曾接触过的jieba。（这时候记得第一步要导库了）但是代码仍然没有思路，只能去继续看看资料和询问同学能不能参考着写出一些。

3.词云图展示
导库又失败了！！PyCharm的使用实在是太坎坷了，不知道是不是和我的电脑八字不合，导了十几次一直出错，非常抓狂。被迫中断了几个小时后，想着先看看后面能做些什么，然后发现了意外之喜。
之前以为词云图是完全没有接触过的，会很难弄做不出来，但是突然脱离题目再回来看的时候，发现和上学期人工智能最后的可视化非常相像！！随之想到的就是上学期沈老师提供的阿里云天池平台，也许可以通过天池进行可视化的操作。
然后我就发现了更优秀的东西...阿里云的师兄师姐们早就有了很多词云图的模板代码甚至是应用（包含过滤器）。参考比较完整的代码却大部分依旧看不懂，最后选了个最简单的模板进行嵌套，终于成功了（泪目）。

4.代码上传
没做到最后一步前我甚至怀疑这份作业我会十分悲伤我做不出来，做到最后一步却万万没想到我是倒在了这里。
首先，我的github打不开了！排版全是错乱的，于是我又打开了百度从各种论坛上面找解决办法。。。在 http://ipaddress.com/ 上查询IP再照着其他网友方法修改完本地的hosts文件仍然打不开，不死心的我又换了台电脑才能堪堪以龟速打开GitHub，时隔四个小时的泪目。
然后，参照部分同学的做法，进行了初始化与新仓库连接，切换分支以及推送操作，中途经常遇到中断和github卡住。。。（询问了其他同学好像github网页有点崩溃）
1.点击 Git Bash Here。2.git init，进行初始化。3.git remote add origin 然后连接仓库。
4.git checkout -b crawl，切换分支。 5.git add 文件名，将文件添加到暂存区。
6.git commit -m "注释"，提交到版本库。7.git push -u origin crawl，推送到远程仓库。
8.git checkout main，切换分支

（部分步骤截图）

posted @ 2021-02-26 15:35 Vongwinga 阅读(84) 评论(0) 编辑收藏举报

刷新页面返回顶部

Vongwinga

黄婉佳---第一次个人编程作业

公告