吴家劲--第一次个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 采集腾讯视频里电视剧《在一起》的全部评论信息做成词云
作业源代码 https://github.com/chaser886/first-personal-work/tree/main
学号 211808527
  • 统计
代码行数 <填写这份作业所在的博客班级的链接>
代码所分析时长 2h
代码实现 1h
数据收集 3h
数据处理 4h
数据分析展示 3h
博客编写 1h
  • 数据采集

首先进入腾讯视频,找到在一起评论页面,查看源代码

通过点击更多评论发现 每点击一次 name便会增加一条,所以评论区为加载内容

此外页面主要通过改变cursor和source的数值来进行改变,每加载一次更多评论,source便加一,cursor起始值为0,在查找发现后cursor在每一个页面的,我们可以通过正则表达式来爬取评论

  • 数据处理

在pycham中安装jieba 然后利用jieba进行分词 进而进行词频统计

  • 词云图

  • git的相关操作
    git clone 远程仓库地址
    git branch:查看当前所有分支
    git branch crawl、chart:创建crawl分支、chart分支
    git checkou:切换分支
    git push origin:分支推送到远程仓库
    git status::查看分支状态

  • 困难以及解决
    第一个就是爬虫有点忘了,代码还是请教了一下同学,然后还有一些没有学过的知识,还是请求同学的帮助还有就是百度。

posted @ 2021-02-25 20:08  chaser886  阅读(92)  评论(1编辑  收藏  举报