统计学小组

数据的图标展示

1.数据的预处理

数据的预处理是在对数据分类或分组钱所做的必要处理，包括：数据审核、筛选、排序。

1.1数据审核

数据完整性：检查应调查的单位或个体是否有遗漏，所有的调查项目是否填写齐全。
数据准确性：检查数据是否有错误，是否存在异常值。对于异常值要仔细甄别。

二手数据：实用性、时效性识别。

1.2数据筛选

找出符合特定条件的某类数据
根据单一条件筛选

import  pandas as pd
df1 = pd.read_csv('three_test.csv')
df1[df1['统计学成绩']>75]

   姓名  统计学成绩  数学成绩  英语成绩  经济学成绩
1  王翔     91    75    95     94
3  李华     81    60    86     64
5  宋媛     83    72    66     71
7  陈风     87    76    92     77

根据多个条件筛选

import  pandas as pd
df1 = pd.read_csv('three_test.csv')
df1[(df1['统计学成绩']>75) & (df1['数学成绩']>75)]
   姓名  统计学成绩  数学成绩  英语成绩  经济学成绩
7  陈风     87    76    92     77

1.3数据排序

按一定顺序将数据排列

df = df.sort_values('统计学成绩',ascending = False)
df
   姓名  统计学成绩  数学成绩  英语成绩  经济学成绩
1  王翔     91    75    95     94
7  陈风     87    76    92     77
5  宋媛     83    72    66     71
3  李华     81    60    86     64
4  赵颖     75    96    81     83
6  袁方     75    58    76     90
0  张松     69    68    84     86
2  田雨     54    88    67     78

2.品质数据的整理与展示

2.1频数与频数分布

频数：是落在某一特定类别或组中的数据个数
频数分布：把各个类别及落在其中的相应频数全部列出，并用表格形式表现出来

2.2分类数据的图示

1.条形图
2.帕累托图
3.饼图
4.环形图

3.数值型数据的整理与展示

3.1数据分组：

采用组距分组时，需要遵循不重不漏的原则，
分组之后的变量值x满足 a<=x<b(左闭右开)
1.分组数据：直方图
2.未分组数据：茎叶图和箱线图
3.时间序列数据：线图
4.多变量数据图示：散点图、气泡图、雷达图

4.合理使用图表

From 统计学Statistics 学习小组：由【木东居士】公众号定期发起
对数据感兴趣的伙伴们可一同在此交流学习

时间紧张，部分地方还缺少代码实现，后期再补充。

posted on 2019-11-03 22:57 王昱棋阅读(357) 评论(0) 收藏举报

刷新页面返回顶部

王昱棋

导航

公告