曾秋玉--第一次个人编程作业
博客班级 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/ |
---|---|
作业要求 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732 |
作业目标 | 爬取《在一起》评论,制作词云图,将代码上传到Github |
作业源代码 | https://github.com/xiao-1005/first-personal-work |
学号 | 211806103 |
一、时间记录 | |
需求分析时间 | 2h |
---- | ---- |
找资料学习,求助舍友 | n~h |
编码时间 | 4h |
代码行数 | 100+ |
一、获取数据,分析网址
1.进入腾讯视频电视剧《在一起》网页,点击影评旁边的评论数,点击“查看更多评论”,
2.使用开发者工具,刚开始没有把url的规律找出来,自己琢磨了很久,浪费了好长时间,后来问了舍友,发现network的请求URL 中只有 cursor 和 source 发生变化,cursor 是上一个网址data中的last值; source 是在第一个的基础上+1,才没有浪费更多的时间,
3.在network的v2...可以找到评论内容,在新标签中打开评论的链接
4.爬取的评论放在txt中
二、处理数据,词频统计
爬取评论文本需要通过分词获得单个的词语,在网上找到了jieba可以把文本精确地切分成若干个中文单词,并统计它们出现的次数,echarts代码的数据是 {"name":,"value":}形式的json格式数据,所以用jieba处理数据是把爬取的数据处理为echarts需要的键值对格式,保存成json文件。
三、echarts制作词云图
在网上找了下载echarts的教程,不知道为什么找不到服务器的地址,试了很多遍都不行就放弃了,问舍友找了模板,把文档里面的数据是放进去,把自己爬到的json
数据替换掉模板的数据,换了图形形状,修改了图形的一些参数
四、上传代码到GitHub
1..在github创建仓库first-personal-work
2.新建一个“第一次个人作业编程”文件夹,里面添加作业文件。cd文件路径进入命令行,输入“git init”
3.连接guthub仓库
4.将Git中的仓库复制到文件夹
5.仓库新建crawl和chart两个分支
6. 将文件夹全部内容添加到git
7.将两个分支分别合并到主分支,上传代码
五、总结
看到作业要求的时候,一题都不想选,好难的样子(题目都看花了)。两题都看了好久之后,第二题的数据实在是不会弄,然后选的是词云图,之前没有接触词云制作,找挺多资料看了,但是在操作的时候跟着步骤也老是出错,没有发现url错误,跑了很久数据都错,所以一直一直...寻求舍友的帮助_此处@苏同学。粗略的完成了作业,感觉已经很不容易了。需要继续学习,下次更好地完成。
六、参考资料
http://www.360doc.com/content/19/0203/13/1353678_812864915.shtml
https://www.cnblogs.com/yuqingya/p/13159077.html
http://www.ruanyifeng.com/blog/2016/01/commit_message_change_log.html