王昱棋

导航

统计学小组

数据的图标展示

1.数据的预处理

数据的预处理是在对数据分类或分组钱所做的必要处理,包括:数据审核、筛选、排序。

1.1数据审核

数据完整性:检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全。
数据准确性:检查数据是否有错误,是否存在异常值。对于异常值要仔细甄别。

二手数据:实用性、时效性识别。

1.2数据筛选

找出符合特定条件的某类数据
根据单一条件筛选

import  pandas as pd
df1 = pd.read_csv('three_test.csv')
df1[df1['统计学成绩']>75]

   姓名  统计学成绩  数学成绩  英语成绩  经济学成绩
1  王翔     91    75    95     94
3  李华     81    60    86     64
5  宋媛     83    72    66     71
7  陈风     87    76    92     77

根据多个条件筛选

import  pandas as pd
df1 = pd.read_csv('three_test.csv')
df1[(df1['统计学成绩']>75) & (df1['数学成绩']>75)]
   姓名  统计学成绩  数学成绩  英语成绩  经济学成绩
7  陈风     87    76    92     77

1.3数据排序

按一定顺序将数据排列

df = df.sort_values('统计学成绩',ascending = False)
df
   姓名  统计学成绩  数学成绩  英语成绩  经济学成绩
1  王翔     91    75    95     94
7  陈风     87    76    92     77
5  宋媛     83    72    66     71
3  李华     81    60    86     64
4  赵颖     75    96    81     83
6  袁方     75    58    76     90
0  张松     69    68    84     86
2  田雨     54    88    67     78

2.品质数据的整理与展示

2.1频数与频数分布

频数:是落在某一特定类别或组中的数据个数
频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来

2.2分类数据的图示

1.条形图
2.帕累托图
3.饼图
4.环形图

3.数值型数据的整理与展示

3.1数据分组:

采用组距分组时,需要遵循不重不漏的原则,
分组之后的变量值x满足 a<=x<b(左闭右开)
1.分组数据:直方图
2.未分组数据:茎叶图和箱线图
3.时间序列数据:线图
4.多变量数据图示:散点图、气泡图、雷达图

4.合理使用图表

From 统计学Statistics 学习小组:由【木东居士】公众号 定期发起
对数据感兴趣的伙伴们 可一同在此交流学习

时间紧张,部分地方还缺少代码实现,后期再补充。

posted on 2019-11-03 22:57  王昱棋  阅读(325)  评论(0编辑  收藏  举报