第一次个人编程作业
博客班级 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/ |
---|---|
作业要求 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732 |
作业目标 | 采集腾讯视频里电视剧《在一起》的全部评论信息 |
作业源代码 | https://github.com/yizhiluer/first-public-work |
学号 | 211806138 |
时间记录: | |
题目分析 | 2h |
---------- | -------------------------------------- |
查资料 | 4h |
编写代码 | 7h |
其他 | 4h |
数据爬取:
看到题目的时候有点懵,爬虫上学期没学好,所以对我来说有难度。查了资料,看了视频,问了同学,才慢慢有了一点想法。
1.打开腾讯视频在一起的影评,他有一个往下拉的,所以说不能用正则提取和Xpath提取。按F12得到多段代码。
2.然后发现用的是Ajax异步加载。其中cursor和source的变化都是有规律的。
3.写代码,爬取在一起的评论。
4.用jieba提取高频词汇
5.用得到的高频词汇制作云图。整个过程都是懵懵的。不过还蛮好玩的,学到了新的知识。
代码上传:
经验总结:
这次作业让我明白了上课好好听讲,下课好好复习是一件多么重要的事情。好多代码不会,而且上传代码也搞来搞去把自己搞糊涂了。希望后面做作业能聚精会神,并且好好学习,别总想着逃避问题。
参考资料:
1.https://blog.csdn.net/weixin_41695564/article/details/79755797?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-14&spm=1001.2101.3001.4242
2.https://github.com/fxsjy/jieba
3.https://www.jb51.net/article/156616.htm
4.https://blog.csdn.net/qq_36150631/article/details/81038485?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.control&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.control