1.16

python进行数据清洗(五)

5.1 数据分组运算
分组计算根据某个或者某几个字段对数据集进行分组,然后运用特定的函数,得到结果


使用groupby方法进行分组计算,得到分组对象GroupBy
语法为df.groupby(by=)
分组对象GroupBy可以运用描述性统计方法, 如count、mean 、median 、max和min等


5.2 聚合函数使用
对分组对象使用agg聚合函数
Groupby.agg(func)
针对不同的变量使用不同的统计方法

5.3 分组对象与apply函数
函数apply即可用于分组对象,也可以作用于dataframe数据
Groupby.apply(func)
需要注意axis=0和axis=1的区别


5.4 透视图与交叉表
在数据分析中,数据透视表是常见的工具之一,需要根据行或列对数据进行各个维度数据的汇总,在pandas中,提供了相关函数解决此类问题,交叉表更多用于频数的分析。

pivot_table( data, index, columns,values, aggfunc, fill_value,margins, margins_name=)

Index : 行分组键
columns: 列分组键
values: 分组的字段,只能为数值型变量
aggfunc: 聚合函数
margins: 是否需要总计
1
2
3
4
5
交叉表用于计算分组频率
pd.crosstab(index,columns,normalize)

Index: 行索引
Columns: 列索引
Normalize: 数据对数据进行标准化,index表示行,column表示列
1
2
3

 

posted @ 2024-01-16 20:56  布吉岛???  阅读(20)  评论(0编辑  收藏  举报