Jiaxin-ya

导航

朱嘉欣---第一次个人编程作业

博客班级 2018级计算机和综合实验班
作业要求 第一次个人编程作业
作业目标 爬取腾讯视频里电视剧《在一起》的全部评论,将评论信息做成词云图,将代码提交至Github
作业源代码 Jiaxin-ya
学号 211806199
步骤数据采集数据处理制作词云图上传代码完成博客
时间1h2h3h1h1.5h

一、数据采集

·采集腾讯视频里电视剧《在一起》的全部评论信息
·进入在一起的评论页面,打开控制台查看。
·在不断下拉过程中,发现会增加“v2?callback”开头的链接

·点击进入此链接,可看到请求url

·由此可见这个就是我们所需要的评论

·经过查看可判断在此链接上可得到我们所需要的评论
·对比几个请求url 可得出其中cursor随机变化source随着页面增加而加一

·点开其中一个请求url,查看源代码时发现last的值等于上一个请求url的cursor的值

·前期准备差不多了 以下就是爬取评论的部分代码

·此为爬取到的评论的部分内容

二、数据处理

·运用jieba库将爬取到的评论进行分词和词频统计
·以下是部分代码

·将词频转换为json文件

三、制作词云图

·因Echarts.js插件使用不太熟练 所以在网上参考代码使用得到该词云图

四、上传代码

·通过命令进入到自己需要操作的文件夹内,进入master模式。
·连接我的github仓库
·将git中的仓库内容复制到该文件夹中

·查看分支
·切换分支

·在该分支下提交所需文件

·整合分支

·上传git push

参考文献

jieba“结巴”中文分词:做最好的 Python 中文分词组件
创建与合并分支

posted on 2021-02-25 17:25  zhujiaxin  阅读(147)  评论(1编辑  收藏  举报