数据分析第一站!

数据分析在现在大数据时代里,已经成为了不可或缺的一部分。以下介绍对《世界计算机科学技术专业排名前五的大学在顶尖期刊论文数》的简单的数据分析

(数据来源:最好大学网)

要先获得数据有两种方式:1.是直接从网站上下载下来,保存为一种文件,对文件进行读取分析,2.是使用爬虫在网络上爬取数据。在这里我使用的是第二种。

 

引入爬虫和可视化的第三方库 

 

 获取近三年的数据的URL,建立两个空列表,分别存储大学名称和所占比例,cols为确定可视化的颜色,后面会用到!

 

 

建立好爬虫的框架,这里不多解释,都做过爬虫大作业!

检查网页的元素

 

 

 

 找到其标签的特殊点:class和style、id

对网页的元素进行提取:

 

将数据存储到分别建立的两个空列表中(只需要提取前5个)

各个部分已经编写完毕,下面编写主函数 

 

 我采用数据可视化的方法是绘制饼状图

startangle=90的意思是从90度的地方开始画第一条线

shadow=True的意思是保留阴影

explode的意思是控制某一块“饼”是否弹出,这里我不弹出,弹出来不太好看

autopct的意思是建立化成百分数

最后成果是(以2019年为例):

 

 反思:

1.在完成这个大作业的时候,最难的部分在于寻找数据,找到了很多统计网站上面的数据,上面很多的数据并不是直接用HTML或者是CSS直接写在网页上的,有很多是直接已经可视化好了的,很不方便提取(也可能是自己水平不够),只好选择了一个简单一点的网站进行爬取和分析。

2.这个分别分析了年份、大学排名和发表的论文数。

3.在这个统计过程中我只统计了前五名大学的统计数据,可是这样是否可以反映出什么情况还有待商榷

还有哪些提高:

还可以形成如同地图一样的图表,并且各个国家的优秀大学数量(可惜我不会,流下没有技术的泪水o(╥﹏╥)o)

posted @ 2020-05-07 00:03  TsukiMoon  阅读(275)  评论(1编辑  收藏  举报