博客班级 | 2018级计算机和综合实验班 |
---|---|
作业要求 | 第一次个人编程作业 |
作业目标 | 爬取《在一起》评论,使用分词器处理数据,生产词图云,上传至GitHub |
作业源代码 | 源代码 |
学号 | 211806191 |
数据分析与采集 | |
一.分析网页 | |
(1)打开腾讯视频《在一起》的评论网页,进入开发者模式(右键检查,再刷新)。对该网页(异步加载)的request请求进行分析,发现每页只有十个评论, | |
需要到最下方(查看更多评论)才能刷新出新的评论,可以判断该网页为异步加载更新数据。 |
(2)可以发现:cursor对应着上一页最后一个last的值
(3)摸清楚规律后,接下来就进行敲代码环节了,想了几个花里胡哨的操作,还是直接上正则表达式
代码如下
二.数据处理
这是用的是jieba进行分词,因为是第一次使用,也是一脸懵逼,只能上网查资料了
(1)读入文本文件
(2)提取权重高的关键词
(3)对文件内容进行分词
三.生成词图云
第一次接触,没学过使用词图云,自己参考网上大量资料以及询问同学,参考同学的模板勉勉强强做出来
四.上传至GitHub
创建对应分支
(1)在需要上传的文件的文件夹中右键点击“Git Bash Here”,打开git命令
(2)输入git init
(3)输入“git remote add origin +自己的仓库地址” ,连接自己的guthub仓库
(4)将仓库克隆到该文件夹,这时会新建一个first-personal-work文件夹
(5)进入first-personal-work文件夹,切换到crawl( “git checkout crawl”)
(6)上传文件(git add +文件名)
(7)提交备注(“git commit -m "信息"”)
(8)输入“git push -u origin master(或其他分支)”,上传项目到Github,需要输入账号密码
体会总结:
(1)因为有涉及到新知识,很多东西都是第一次接触,学起来也比较费力,本次作业完成较为坎坷。
(2)还没有掌握本次的新知识,作业完成后好好的巩固一下本次所学习的内容。
(3)任重道远。