寒假第三份作业
博客班级 | https://edu.cnblogs.com/campus/fzzcxy/Freshman |
---|---|
作业要求 | https://edu.cnblogs.com/campus/fzzcxy/Freshman/homework/11734 |
作业目标 | 题目一:词云图 |
作业源代码 | https://github.com/peipeiziyapeizizi/WinterVacationHomework |
学号 | 212006119 |
本次所爬评论的电影为:新神榜:哪吒重生
词云图作业内容如下:
第一步:数据采集
我选择的是在豆瓣网爬取新神榜:哪吒重生这部电影的评论
所以我在该电影评论页面通过鼠标右键,查看网页源代码
发现电影的评论都在
<p class=" comment-content">
下的
<span class="short">
中,如图:
于是开始爬取评论:
如上图,爬取成功。
因为评论有200页,每页有20条评论,所以可用循环结构爬取每一页的评论:
第二步:数据处理
我通过csv这个库,将爬取到的评论保存到“豆瓣.csv”中,如下图:
第三步:数据可视化
附上云词图:
可以添加背景图以此改变云词图形状: