贺芳鑫——第一次个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 爬取电视剧《在一起》的全部评论信息,把所有数据下载到本地保存到json文件里面comments.json, 可视化图表需要用到js插件echarts.js,将爬取到的评论信息做成词云图
作业源代码 https://github.com/XXILL001/first-personal-work
学号 211806214
·作业流程
步骤 耗时
---- ----
1.爬取《在一起》评论 2h
2.评论信息处理 5h
3.制作词云图 5h
4.代码上传Github 3h
1.爬取《在一起》评论
进入https://v.qq.com/x/cover/mzc00200jg5gfcq.html 查看全部评论
进入评论页面后,分析网页源代码,寻找规律,发现该页是采用Ajax异步加载方式
进入网址发现,每个js的URL就是评论的存放页面
编写代码,利用requests爬取评论保存至zyq.txt文件中
2.评论信息处理
利用jieba分词,提取高频词汇,但是在此遇到了pycharm中无法导入jieba的问题,经百度查阅资料最终解决,之后经过几小时的学习jieba才能简单上手。

3.制作词云图
从没接触过词云图,只能从0开始入门了,上B站看视频,查CSDN中echarts,花了好多时间才开始下载echarts与其相关的插件,一步一步做下去,功夫不负有心人,到最后勉勉强强生成了下面的词云图,不得不说学习永无止境,相当于只学到了点皮毛。

4.代码上传Github
·在github上面创建仓库,且设置为公开
·新建一个“第一次编程”文件夹,右击“第一次编程”文件夹根目录,点击“Git Bash Here”,输入git init

·将仓库克隆到本地

·仓库新建crawl和chart两个分支

·本地commit

·将两个分支分别合并到主分支

·将本地代码推送到远程

·作业感想
此次作业有两题,第二题疫情统计分布很多东西都没有学过,相比第一题爬虫陌生多了,分析题目查阅资料了解相关知识后开刚,这次作业还是比较难的,花费了很多时间,但现在做完想想也觉得值得,在这个过程中学到了很多的东西,也清楚自身知识储备很不足,在今后应该更加认真的学习,学无止境。
·参考资料
https://www.liaoxuefeng.com/wiki/896043488029600
https://blog.csdn.net/codejas/article/details/80356544
https://blog.csdn.net/zly412934578/article/details/79996575

posted @ 2021-02-25 15:44  XXILL001  阅读(104)  评论(1编辑  收藏  举报