第一次个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS/
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 采集腾讯视频里电视剧《在一起》的全部评论信息
作业源代码 https://github.com/yizhiluer/first-public-work
学号 211806138
时间记录:
题目分析 2h
---------- --------------------------------------
查资料 4h
编写代码 7h
其他 4h

数据爬取:
看到题目的时候有点懵,爬虫上学期没学好,所以对我来说有难度。查了资料,看了视频,问了同学,才慢慢有了一点想法。
1.打开腾讯视频在一起的影评,他有一个往下拉的,所以说不能用正则提取和Xpath提取。按F12得到多段代码。


2.然后发现用的是Ajax异步加载。其中cursor和source的变化都是有规律的。


3.写代码,爬取在一起的评论。


4.用jieba提取高频词汇

5.用得到的高频词汇制作云图。整个过程都是懵懵的。不过还蛮好玩的,学到了新的知识。

代码上传:


经验总结:
这次作业让我明白了上课好好听讲,下课好好复习是一件多么重要的事情。好多代码不会,而且上传代码也搞来搞去把自己搞糊涂了。希望后面做作业能聚精会神,并且好好学习,别总想着逃避问题。
参考资料:
1.https://blog.csdn.net/weixin_41695564/article/details/79755797?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-14&spm=1001.2101.3001.4242
2.https://github.com/fxsjy/jieba
3.https://www.jb51.net/article/156616.htm
4.https://blog.csdn.net/qq_36150631/article/details/81038485?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.control&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.control

posted @ 2021-02-26 21:17  yizhiluer  阅读(68)  评论(0编辑  收藏  举报