统计学小组
数据的图标展示
1.数据的预处理
数据的预处理是在对数据分类或分组钱所做的必要处理,包括:数据审核、筛选、排序。
1.1数据审核
数据完整性:检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全。
数据准确性:检查数据是否有错误,是否存在异常值。对于异常值要仔细甄别。
二手数据:实用性、时效性识别。
1.2数据筛选
找出符合特定条件的某类数据
根据单一条件筛选
import pandas as pd
df1 = pd.read_csv('three_test.csv')
df1[df1['统计学成绩']>75]
姓名 统计学成绩 数学成绩 英语成绩 经济学成绩
1 王翔 91 75 95 94
3 李华 81 60 86 64
5 宋媛 83 72 66 71
7 陈风 87 76 92 77
根据多个条件筛选
import pandas as pd
df1 = pd.read_csv('three_test.csv')
df1[(df1['统计学成绩']>75) & (df1['数学成绩']>75)]
姓名 统计学成绩 数学成绩 英语成绩 经济学成绩
7 陈风 87 76 92 77
1.3数据排序
按一定顺序将数据排列
df = df.sort_values('统计学成绩',ascending = False)
df
姓名 统计学成绩 数学成绩 英语成绩 经济学成绩
1 王翔 91 75 95 94
7 陈风 87 76 92 77
5 宋媛 83 72 66 71
3 李华 81 60 86 64
4 赵颖 75 96 81 83
6 袁方 75 58 76 90
0 张松 69 68 84 86
2 田雨 54 88 67 78
2.品质数据的整理与展示
2.1频数与频数分布
频数:是落在某一特定类别或组中的数据个数
频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来
2.2分类数据的图示
1.条形图
2.帕累托图
3.饼图
4.环形图
3.数值型数据的整理与展示
3.1数据分组:
采用组距分组时,需要遵循不重不漏的原则,
分组之后的变量值x满足 a<=x<b(左闭右开)
1.分组数据:直方图
2.未分组数据:茎叶图和箱线图
3.时间序列数据:线图
4.多变量数据图示:散点图、气泡图、雷达图
4.合理使用图表
From 统计学Statistics 学习小组:由【木东居士】公众号 定期发起
对数据感兴趣的伙伴们 可一同在此交流学习
时间紧张,部分地方还缺少代码实现,后期再补充。