曾秋玉--第一次个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS/
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 爬取《在一起》评论,制作词云图,将代码上传到Github
作业源代码 https://github.com/xiao-1005/first-personal-work
学号 211806103
一、时间记录
需求分析时间 2h
---- ----
找资料学习,求助舍友 n~h
编码时间 4h
代码行数 100+

一、获取数据,分析网址
1.进入腾讯视频电视剧《在一起》网页,点击影评旁边的评论数,点击“查看更多评论”,


2.使用开发者工具,刚开始没有把url的规律找出来,自己琢磨了很久,浪费了好长时间,后来问了舍友,发现network的请求URL 中只有 cursor 和 source 发生变化,cursor 是上一个网址data中的last值; source 是在第一个的基础上+1,才没有浪费更多的时间,

3.在network的v2...可以找到评论内容,在新标签中打开评论的链接

4.爬取的评论放在txt中

二、处理数据,词频统计
爬取评论文本需要通过分词获得单个的词语,在网上找到了jieba可以把文本精确地切分成若干个中文单词,并统计它们出现的次数,echarts代码的数据是 {"name":,"value":}形式的json格式数据,所以用jieba处理数据是把爬取的数据处理为echarts需要的键值对格式,保存成json文件。

三、echarts制作词云图

在网上找了下载echarts的教程,不知道为什么找不到服务器的地址,试了很多遍都不行就放弃了,问舍友找了模板,把文档里面的数据是放进去,把自己爬到的json
数据替换掉模板的数据,换了图形形状,修改了图形的一些参数

四、上传代码到GitHub

1..在github创建仓库first-personal-work
2.新建一个“第一次个人作业编程”文件夹,里面添加作业文件。cd文件路径进入命令行,输入“git init”

3.连接guthub仓库

4.将Git中的仓库复制到文件夹

5.仓库新建crawl和chart两个分支

6. 将文件夹全部内容添加到git

7.将两个分支分别合并到主分支,上传代码

五、总结
看到作业要求的时候,一题都不想选,好难的样子(题目都看花了)。两题都看了好久之后,第二题的数据实在是不会弄,然后选的是词云图,之前没有接触词云制作,找挺多资料看了,但是在操作的时候跟着步骤也老是出错,没有发现url错误,跑了很久数据都错,所以一直一直...寻求舍友的帮助_此处@苏同学。粗略的完成了作业,感觉已经很不容易了。需要继续学习,下次更好地完成。

六、参考资料
http://www.360doc.com/content/19/0203/13/1353678_812864915.shtml
https://www.cnblogs.com/yuqingya/p/13159077.html
http://www.ruanyifeng.com/blog/2016/01/commit_message_change_log.html

posted @ 2021-02-26 23:46  xiao-1005  阅读(54)  评论(0编辑  收藏  举报