贺芳鑫——第一次个人编程作业
博客班级 | https://edu.cnblogs.com/campus/fzzcxy/2018CS |
---|---|
作业要求 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732 |
作业目标 | 爬取电视剧《在一起》的全部评论信息,把所有数据下载到本地保存到json文件里面comments.json, 可视化图表需要用到js插件echarts.js,将爬取到的评论信息做成词云图 |
作业源代码 | https://github.com/XXILL001/first-personal-work |
学号 | 211806214 |
·作业流程 | |
步骤 | 耗时 |
---- | ---- |
1.爬取《在一起》评论 | 2h |
2.评论信息处理 | 5h |
3.制作词云图 | 5h |
4.代码上传Github | 3h |
1.爬取《在一起》评论 | |
进入https://v.qq.com/x/cover/mzc00200jg5gfcq.html 查看全部评论 | |
进入评论页面后,分析网页源代码,寻找规律,发现该页是采用Ajax异步加载方式 | |
进入网址发现,每个js的URL就是评论的存放页面 | |
编写代码,利用requests爬取评论保存至zyq.txt文件中 | |
2.评论信息处理 | |
利用jieba分词,提取高频词汇,但是在此遇到了pycharm中无法导入jieba的问题,经百度查阅资料最终解决,之后经过几小时的学习jieba才能简单上手。 | |
3.制作词云图
从没接触过词云图,只能从0开始入门了,上B站看视频,查CSDN中echarts,花了好多时间才开始下载echarts与其相关的插件,一步一步做下去,功夫不负有心人,到最后勉勉强强生成了下面的词云图,不得不说学习永无止境,相当于只学到了点皮毛。
4.代码上传Github
·在github上面创建仓库,且设置为公开
·新建一个“第一次编程”文件夹,右击“第一次编程”文件夹根目录,点击“Git Bash Here”,输入git init
·将仓库克隆到本地
·仓库新建crawl和chart两个分支
·本地commit
·将两个分支分别合并到主分支
·将本地代码推送到远程
·作业感想
此次作业有两题,第二题疫情统计分布很多东西都没有学过,相比第一题爬虫陌生多了,分析题目查阅资料了解相关知识后开刚,这次作业还是比较难的,花费了很多时间,但现在做完想想也觉得值得,在这个过程中学到了很多的东西,也清楚自身知识储备很不足,在今后应该更加认真的学习,学无止境。
·参考资料
https://www.liaoxuefeng.com/wiki/896043488029600
https://blog.csdn.net/codejas/article/details/80356544
https://blog.csdn.net/zly412934578/article/details/79996575