安泽铭---第一次个人编程作业
作业介绍
博客班级 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/ |
---|---|
作业要求 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732 |
作业目标 | 爬取评论信息、将评论信息展示成词云图 |
作业源代码 | https://github.com/anzeming123/anzeming |
学号 | 211806101 |
时间分配 | |
过程 | 花费时间 |
----- | -------------------- |
爬取评论 | 2h |
数据处理 | 2h |
数据展示 | 2.5h |
提交代码 | 1h |
一:爬取评论 |
1. 进入《在一起》的评论页面。
2. F12,点击 Network,分析网址变化规律。
对比两个网址,只有 cursor 和 _ 不同。其中 _ 是加 1 操作,cursor对应的是 last 字段的值。
3. 接着查找评论内容,发现评论内容对应content字段,利用正则来提取评论内容。
4. 当前评论页面中获取下一页的值,再爬取下一页。
5. 将评论内容都保存到comments.json文件当中
二:数据展示
制作词云图这块,不知道该怎么入手,迷茫了很久,没有头绪,只好寻找模板将自己的数据套进去勉强制作出词云图
三:提交代码