林婷---第一次编程作业

| 博客班级 | https://edu.cnblogs.com/campus/fzzcxy/2018CS |
| ---- | ---- | ---- |
| 作业要求| https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732 |
| 作业目标 | 采集腾讯视频里电视剧《在一起》的全部评论信息并且进行高频词统计和词云图展示 |
| 作业源 | https://github.com/211806230/first-public-work/branches |
| 学号 |211806230|
作业纪录
| 步骤 | 用时 |
| ---- | ---- | ---- |
| 题目分析 | 1小时 |
| 资源查询和代码分析 | 1.5小时|
|代码编写|6小时|
|制作词云图|4小时|
|上传代码|1小时|
数据爬取
一开始看到作业的时候毫无头绪,上学期学习爬虫的时候摸棱两可,本想用xpath爬取,先提取链接到列表里,然后进行遍历循环,但是试了好多次发现不可以,爬取不到链接。通过网页爬取时发现要将corsor和source的值进行改变
爬取步骤:
1.先进入到腾讯视频《在一起》的评论区,按F12查看网页的源代码,查询规律
2.通过点击更多我们会发现左侧的状态会响应,使用的是ajax一步加载技术,进入后发现每个url是评论的存放页,他们的Request URL中的cursor值和source的值都是有规律可循。


3.编写代码,爬取评论
4.提取高频词汇(用jieba分词)


5.得到高频词汇开始绘制词云图,这块知识还没有接触过,知识点都是空白的,就去网上查了资料进行学习,但是还是看不懂,就去请教同学,但是还是模模糊糊的。


6.代码上传到GitHub
(1)先在GitHub上创建crawel和charts两个分支。
一.连接并克隆到本地

二.创建crawl和chart两个分支

三.分支切换

四.将代码和结果上传到对应分支


心得:
通过这次作业,让我深深的明白我的不足之处,将代码上传到GitHub试了好多好多好多次都不太会,一定要不断加强学习能力!查缺补漏,争取下一次可以顺利完成作业。

参考资料:
1.如何用词云图
2.commit message 和change log 编写指南
3.GitHub使用方法

posted @ 2021-02-26 18:00  211806230林婷  阅读(124)  评论(1)    收藏  举报