叶翔---第一次个人编程作业

博客班级 2018 级计算机和综合实验班
作业要求 作业要求
作业目标 采集数据、分析数据、展示数据
作业源代码 https://github.com/Yeyuxian/first-personal-work
学号 211804151
代码总行数:92 行

耗时情况

过程 分析时间 利用时间 完成情况
爬取评论 30min 2h 部分完成
过滤评论 15min 30min 完成
评论拆分 20min 1h 完成
json转换 30min 1h 完成
制作词云图 20min 1h 完成
git上传 20min 1h 完成

思路分析

  1. 首先爬取评论,找到评论所在服务器的地址。因为每次点击加载更多评论都会有新的地址,所以首先得点击几次发现其中规律。

  2. 将爬取到的评论写入txt文档中,以便观察以及进行接下来的操作.

  3. 过滤评论,打开刚刚写的txt文档,会发现其中有不少非中文字符以及表情,此时需要过滤掉这些字符和表情,才能进行拆分.

  4. 评论拆分,利用jieba将刚刚过滤好的评论进行拆分并排序,可以直观的看到每个关键词出现的次数

  5. 转换成 json 文件,将拆分好的评论写入字典后转换成json文件

  6. 制作词云图,利用 echarts 可以很方便地作出词云图

遇到问题&解决方法

Q1. 首先遇到的问题就是用F12打开控制台后,无法很方便地找出评论的服务器地址,而且每次点击加在更多后会发现有新的地址跳出,必须找到其中规律才能写循环

M1. 可以在搜索栏输入 comments 寻找

M1. 点击加在更多后可以发现规律,除第一个外,cursor的值是爬取文本中"last"的值

M1. 最后的"&_="的值则是时间戳,获取第一个时间戳后,之后的值则是第一个值+3之后,依次逐个+1

- 代码如下:

Q2. 获取到的代码存在非中文以及表情,需要将其去除

M2. 读取原txt文件,用if语句来过滤非中文及表情部分,并写入新txt文件

代码如下:

Q3. jieba库的语法不会

M3. 上网寻找资料,网址:https://github.com/fxsjy/jieba

代码如下:

Q4. git的语法不熟练

M4. 查询资料,网址:https://www.cnblogs.com/MingT-L/p/14408571.html#关于数据展示词云图

代码如下:

链接远程库并克隆

创建分支并推送到远程仓库

推送

合并分支并再次推送

Q5. 只能实现单一集数的爬取,无法实现不同集数的爬取

M5. 未解决

成果展示

参考文献

李明特---第一次个人编程作业

Commit message 和 Change log 编写指南

GitHub - fxsjy/jieba: 结巴中文分词

工具(2): 极简MarkDown排版介绍(How to)

posted @ 2021-02-26 00:01  羡鱼yx  阅读(100)  评论(8编辑  收藏  举报