利用python进行数据分析之数据聚合和分组运算
对数据集进行分组并对各分组应用函数是数据分析中的重要环节。
group by技术
pandas对象中的数据会根据你所提供的一个或多个键被拆分为多组,拆分操作是在对象的特定轴上执行的,然后将一个函数应用到各个分组并产生一个新值,最后所有这些函数的执行结果会被合并到最终的结果对象中。
>>> from pandas import * >>> df=DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)}) >>> df data1 data2 key1 key2 0 -1.413818 -0.865514 a one 1 -1.001804 0.309597 a two 2 0.357458 -0.387695 b one 3 0.674294 -0.977009 b two 4 -0.090150 2.444888 a one >>> grouped=df['data1'].groupby(df['key1']) >>> grouped <pandas.core.groupby.SeriesGroupBy object at 0x04005770>
#生成一个groupby对象,实际上还未进行任何计算,可对其调用方法进行计算 >>> grouped.mean() key1 a -0.835257 b 0.515876 Name: data1, dtype: float64
#此外,可将列名直接当作分组对象,分组中,数值列会被聚合,非数值列会从结果中排除 >>> df.groupby('key1').mean() data1 data2 key1 a -0.835257 0.629657 b 0.515876 -0.682352 >>> df.groupby(['key1','key2']).mean() data1 data2 key1 key2 a one -0.751984 0.789687 two -1.001804 0.309597 b one 0.357458 -0.387695 two 0.674294 -0.977009
无论你准准备拿groupby做什么,都可能会使用groupby的size方法,可以返回一个含有分组大小的series;
>>> df.groupby(['key1','key2']).size() key1 key2 a one 2 two 1 b one 1 two 1 dtype: int64
1、对分组进行迭代
groupby对象支持迭代,可以产生一组二元数组(由分组名称和数据块构成)
>>> for name,group in df.groupby('key1'): print name print group a data1 data2 key1 key2 0 -1.413818 -0.865514 a one 1 -1.001804 0.309597 a two 4 -0.090150 2.444888 a one b data1 data2 key1 key2 2 0.357458 -0.387695 b one 3 0.674294 -0.977009 b two
对于多重键的情况,元祖的第一个元素将会是由键值组成的元组
>>> for (k1,k2),group in df.groupby(['key1','key2']): print k1,k2 print group a one data1 data2 key1 key2 0 -1.413818 -0.865514 a one 4 -0.090150 2.444888 a one a two data1 data2 key1 key2 1 -1.001804 0.309597 a two b one data1 data2 key1 key2 2 0.357458 -0.387695 b one b two data1 data2 key1 key2 3 0.674294 -0.977009 b two
groupby分组默认是在axis=0上进行分组的,通过设置也可以在其他轴上进行分组
>>> df.dtypes data1 float64 data2 float64 key1 object key2 object dtype: object >>> grouped=df.groupby(df.dtypes,axis=1) >>> dict(list(grouped)) {dtype('O'): key1 key2 0 a one 1 a two 2 b one 3 b two 4 a one, dtype('float64'): data1 data2 0 -1.413818 -0.865514 1 -1.001804 0.309597 2 0.357458 -0.387695 3 0.674294 -0.977009 4 -0.090150 2.444888}
2、选取一个或一组列
对于DataFrame产生的groupby对象,如果用一个或一组列名对其进行索引,就能实现选取部分列进行聚合的目的
>>> df data1 data2 key1 key2 0 -1.413818 -0.865514 a one 1 -1.001804 0.309597 a two 2 0.357458 -0.387695 b one 3 0.674294 -0.977009 b two 4 -0.090150 2.444888 a one >>> df.groupby('key1')['data1'] <pandas.core.groupby.SeriesGroupBy object at 0x04005FB0>
>>> df.groupby('key1')['data1'].mean()
key1
a -0.835257
b 0.515876
尤其对于大数据集,可能只需要对部分列进行聚合
>>> df.groupby(['key1','key2'])[['data2']].mean() #注意data2的形式,如果传入的是标量名称则不同 data2 key1 key2 a one 0.789687 two 0.309597 b one -0.387695 two -0.977009 >>> df.groupby(['key1','key2'])['data2'].mean() key1 key2 a one 0.789687 two 0.309597 b one -0.387695 two -0.977009 Name: data2, dtype: float64
3、通过字典或Series进行分组
除数组以外,分组信息还可以以其他形式存在
>>> people=DataFrame(np.random.randn(5,5),columns=['a','b','c','d','e'],index=['joe','steve','wes','jim','travis']) >>> people a b c d e joe -1.136829 -0.549897 1.382399 -1.457968 -1.975316 steve 0.633057 0.905028 0.615449 -1.307026 -0.150066 wes 0.715308 -1.546033 1.090450 -0.699447 0.308514 jim 0.127834 0.134140 0.218690 0.298301 0.722678 travis 1.561881 0.283804 0.017650 1.231204 -1.732033 >>> people.ix[2:3,['b','c']]=np.nan >>> people a b c d e joe -1.136829 -0.549897 1.382399 -1.457968 -1.975316 steve 0.633057 0.905028 0.615449 -1.307026 -0.150066 wes 0.715308 NaN NaN -0.699447 0.308514 jim 0.127834 0.134140 0.218690 0.298301 0.722678 travis 1.561881 0.283804 0.017650 1.231204 -1.732033 >>> mapping={'a':'red','b':'red','c':'blue','d':'blue','e':'red'} >>> by_column=people.groupby(mapping,axis=1) >>> by_column.sum() blue red joe -0.075569 -3.662042 steve -0.691577 1.388018 wes -0.699447 1.023822 jim 0.516991 0.984652 travis 1.248854 0.113652
Series也有这样的功能,它可以被看作一个固定大小的映射
>>> map_series=Series(mapping) >>> map_series a red b red c blue d blue e red dtype: object >>> people.groupby(map_series,axis=1).sum() blue red joe -0.075569 -3.662042 steve -0.691577 1.388018 wes -0.699447 1.023822 jim 0.516991 0.984652 travis 1.248854 0.113652
4、通过函数进行分组
相较于字典或者Series,python函数在定义分组映射关系时可以更具创意和抽象,任何被当作分组键的函数都会在索引值上被调用一次,其返回值被当作分组名称
#根据人名长度进行分组 >>> people.groupby(len).sum() a b c d e 3 -0.293687 -0.415757 1.601089 -1.859114 -0.944124 5 0.633057 0.905028 0.615449 -1.307026 -0.150066 6 1.561881 0.283804 0.017650 1.231204 -1.732033
将函数,列表,字典混用也没问题,因为任何东西最终会被转换为数组
>>> keyliat=['one','one','one','two','two'] >>> people.groupby([len,keyliat]).min() a b c d e 3 one -1.136829 -0.549897 1.382399 -1.457968 -1.975316 two 0.127834 0.134140 0.218690 0.298301 0.722678 5 one 0.633057 0.905028 0.615449 -1.307026 -0.150066 6 two 1.561881 0.283804 0.017650 1.231204 -1.732033
5、根据索引级别分组
层次化索引的数据集最方便的地方在于它能够根据索引级别进行聚合,实现该目的,通过level关键字传入级别编号或名称即可。
>>> import numpy as np >>> hief_df=DataFrame(np.random.randn(4,5),columns=columns) >>> hief_df cty us jp tennor 1 3 5 1 3 0 -0.185892 -0.517436 -0.040285 1.274849 0.015439 1 -1.757972 -0.650451 0.863938 0.467745 -0.288524 2 1.512232 -0.494746 -0.119517 1.047349 -0.627444 3 -0.656453 0.858041 1.218276 1.138983 0.997657 >>> hief_df.groupby(level='cty',axis=1).count() cty jp us 0 2 3 1 2 3 2 2 3 3 2 3
数据聚合
对于聚合,一般指的是能够从数组产生的标量值的数据转换过程,常见的聚合运算都有相关的统计函数快速实现,当然也可以自定义聚合运算
要使用自己的定义的聚合函数,需将其传入aggregate或agg方法即可
>>> df=DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)}) >>> df data1 data2 key1 key2 0 -1.299938 -1.269616 a one 1 -0.279184 -0.037004 a two 2 -0.851559 -0.527337 b one 3 1.140124 0.882907 b two 4 0.406030 -0.365484 a one >>> grouped=df.groupby('key1') >>> def peak_to_peak(arr): return arr.max()-arr.min() >>> grouped.agg(peak_to_peak) data1 data2 key1 a 1.705968 1.232612 b 1.991683 1.410243
describe方法也可使用,但严格来说这些并非聚合运算
>>> grouped.describe() data1 data2 key1 a count 3.000000 3.000000 mean -0.391031 -0.557368 std 0.858466 0.638316 min -1.299938 -1.269616 25% -0.789561 -0.817550 50% -0.279184 -0.365484 75% 0.063423 -0.201244 max 0.406030 -0.037004 b count 2.000000 2.000000 mean 0.144282 0.177785 std 1.408332 0.997193 min -0.851559 -0.527337 25% -0.353638 -0.174776 50% 0.144282 0.177785 75% 0.642203 0.530346 max 1.140124 0.882907
1、面向列的多函数应用
前面已经看到对Series或DataFrame列的聚合运算其实就是使用aggregate调用自定义函数或者直接调用诸如mean,std之类的方法;
但是当你希望对不同列使用不同的聚合函数时看如下事例:
>>> tips['tip_pct']=tips['tip']/tips['total_bill'] >>> tips[:6] total_bill tip sex smoker day time size tip_pct 0 16.99 1.01 Female No Sun Dinner 2 0.059447 1 10.34 1.66 Male No Sun Dinner 3 0.160542 2 21.01 3.50 Male No Sun Dinner 3 0.166587 3 23.68 3.31 Male No Sun Dinner 2 0.139780 4 24.59 3.61 Female No Sun Dinner 4 0.146808 5 25.29 4.71 Male No Sun Dinner 4 0.186240 >>> grouped=tips.groupby(['sex','smoker']) >>> grouped_pct=grouped['tip_pct'] #可以将函数名以字符串的形式传入 >>> grouped_pct.agg('mean') sex smoker Female No 0.156921 Yes 0.182150 Male No 0.160669 Yes 0.152771 Name: tip_pct, dtype: float64
如果传入一组函数或者函数名,则得到的DataFrame列就会以相应的函数命名,实际操作中并不一定需要接受默认的函数名,可以传入一个由(name,function)元组组成的列表当作一个有序映射。
>>> grouped_pct.agg(['mean','std']) mean std sex smoker Female No 0.156921 0.036421 Yes 0.182150 0.071595 Male No 0.160669 0.041849 Yes 0.152771 0.090588
>>> grouped_pct.agg([('foo','mean'),('bar',np.std)]) foo bar sex smoker Female No 0.156921 0.036421 Yes 0.182150 0.071595 Male No 0.160669 0.041849 Yes 0.152771 0.090588
对于DataFrame,还可以定义一组应用于全部列的函数,或不同的列应用不同的函数,这样会产生层次化索引的DataFrame
>>> functions=['count','mean','max'] >>> result=grouped['tip_pct','total_bill'].agg(functions) >>> result tip_pct total_bill count mean max count mean max sex smoker Female No 54 0.156921 0.252672 54 18.105185 35.83 Yes 33 0.182150 0.416667 33 17.977879 44.30 Male No 97 0.160669 0.291990 97 19.791237 48.33 Yes 60 0.152771 0.710345 60 22.284500 50.81
现在假设想要对不同的列应用不同的函数,具体的办法就是向agg传入一个从列名映射到函数的字典
>>> grouped.agg({'tip':np.max,'size':'sum'}) tip size sex smoker Female No 5.2 140 Yes 6.5 74 Male No 9.0 263 Yes 10.0 150 >>> grouped.agg({'tip_pct':['min','max','mean'],'size':'sum'}) tip_pct size min max mean sum sex smoker Female No 0.056797 0.252672 0.156921 140 Yes 0.056433 0.416667 0.182150 74 Male No 0.071804 0.291990 0.160669 263 Yes 0.035638 0.710345 0.152771 150
2、以无索引的形式返回聚合数据
一般情况下,聚合数据都需要唯一的分组键组成的索引,但也可以通过向groupby传入as_index=False以禁用该功能
>>> tips.groupby(['sex','smoker'],as_index=False).mean() sex smoker total_bill tip size tip_pct 0 Female No 18.105185 2.773519 2.592593 0.156921 1 Female Yes 17.977879 2.931515 2.242424 0.182150 2 Male No 19.791237 3.113402 2.711340 0.160669 3 Male Yes 22.284500 3.051167 2.500000 0.152771
分组运算和转换
聚合仅是分组运算的一种,它是数据转换的一个特例,本节介绍transform和apply方法,他们能够执行更多其他的分组运算
以下是为一个DataFrame添加一个用于存放各索引组平均值的列,利用了先聚合再合并
>>> df data1 data2 key1 key2 0 -1.359405 -0.567306 a one 1 -0.298647 -1.078614 a two 2 0.355256 0.693866 b one 3 -1.452335 -0.666225 b two 4 1.036177 1.811104 a one >>> k1_means=df.groupby('key1').mean() >>> k2_means=df.groupby('key1').mean().add_prefix('mean_') >>> k1_means data1 data2 key1 a -0.207292 0.055061 b -0.548539 0.013821 >>> k2_means mean_data1 mean_data2 key1 a -0.207292 0.055061 b -0.548539 0.013821 >>> merge(df,k2_means,left_on='key1',right_index=True) data1 data2 key1 key2 mean_data1 mean_data2 0 -1.359405 -0.567306 a one -0.207292 0.055061 1 -0.298647 -1.078614 a two -0.207292 0.055061 4 1.036177 1.811104 a one -0.207292 0.055061 2 0.355256 0.693866 b one -0.548539 0.013821 3 -1.452335 -0.666225 b two -0.548539 0.013821
实际上可以对DataFrame进行transform方法,对比一下下面两种的区别,transform会将一个函数应用到各个分组
>>> df.groupby('key2').transform(np.mean) data1 data2 0 0.010676 0.645888 1 -0.875491 -0.872420 2 0.010676 0.645888 3 -0.875491 -0.872420 4 0.010676 0.645888 >>> df.groupby('key2').mean() data1 data2 key2 one 0.010676 0.645888 two -0.875491 -0.872420
1、apply,一般性的拆分-应用-合并
最一般的groupby方法是apply,apply会将待处理的对象拆分为多个片段,然后对各个片段调用传入的函数,最后尝试将各片段组合在一起,
在groupby中,当你调用诸如describe之类的方法时,实际上是应用了快捷方式:f=lambda x:x.describe();grouped.apply(f)
2、分位数和桶分析
pandas有一些能根据指定面元或样本分位数将数据拆分为多块的工具(比如cut和qcut),将这些数据跟groupby结合起来,就能轻松的对数据集的桶或分位数分析
>>>frame=DataFrame({'data1':np.random.randn(1000),'data2':np.random.randn(1000)}) >>> factor=cut(frame.data1,4) >>> factor[:10] 0 (-1.35, 0.107] 1 (0.107, 1.563] 2 (-1.35, 0.107] 3 (-2.812, -1.35] 4 (0.107, 1.563] 5 (0.107, 1.563] 6 (-1.35, 0.107] 7 (-1.35, 0.107] 8 (-1.35, 0.107] 9 (1.563, 3.02] Name: data1, dtype: category Categories (4, object): [(-2.812, -1.35] < (-1.35, 0.107] < (0.107, 1.563] < (1.563, 3.02]]
cut返回的factor对象可直接用于groupby,分为长度相等的桶;
>>> def get_stats(group): return {'min':group.min(),'max':group.max(),'count':group.count(),'mean':group.mean()} >>> grouped=frame.data2.groupby(factor) >>> grouped.apply(get_stats).unstack() count max mean min data1 (-2.812, -1.35] 79 2.791474 0.023155 -2.577103 (-1.35, 0.107] 433 2.942033 0.066771 -2.812077 (0.107, 1.563] 437 2.391669 0.022582 -2.654376 (1.563, 3.02] 51 2.652038 0.406708 -2.387372
若要得到大小相等的桶,使用qcut即可
>>> grouping=qcut(frame.data1,10,labels=False) >>> grouped=frame.data2.groupby(grouping) >>> grouped.apply(get_stats).unstack() count max mean min 0 100 2.791474 0.025400 -2.577103 1 100 2.536797 -0.094773 -2.046163 2 100 2.942033 0.243372 -1.671060 3 100 2.566991 0.059096 -2.252417 4 100 2.589560 0.053143 -2.812077 5 100 1.743871 -0.041336 -2.448941 6 100 2.295631 0.157645 -2.264740 7 100 2.391669 -0.012642 -2.076873 8 100 2.164782 0.026390 -2.654376 9 100 2.652038 0.197221 -2.387372
3、用特定分组的值填充缺失值
对于缺失数据的清理工作,有时你会用dropna将其删除,有时可能会希望用一个固定值或由数据集本事衍生出来的值去填充na值,这时应该使用fillna工具
>>> from pandas import * >>> s=Series(np.random.randn(6)) >>> s[::2]=np.nan >>> s 0 NaN 1 0.730366 2 NaN 3 1.072793 4 NaN 5 -0.720886 dtype: float64 >>> s.fillna(s.mean()) 0 0.360758 1 0.730366 2 0.360758 3 1.072793 4 0.360758 5 -0.720886 dtype: float64
假设需要对不同的分组填充不同的值,只需将数据分组,并使用apply和一个能够对各数据块调用的fillna的函数即可
>>> state=['ohio','new york','vermont','florida','oregen','nevada','california','idaho'] >>> group_key=['east']*4+['west']*4 >>> group_key ['east', 'east', 'east', 'east', 'west', 'west', 'west', 'west'] >>> data=Series(np.random.randn(8),index=state) >>> data[['vermont','nevada','idaho']]=np.nan >>> data ohio -1.032728 new york -1.162002 vermont NaN florida -0.571487 oregen -0.997641 nevada NaN california 1.149481 idaho NaN dtype: float64 >>> data.groupby(group_key).mean() east -0.922072 west 0.075920 dtype: float64 #利用分组平均去填充na值 >>> fill_mean=lambda g:g.fillna(g.mean()) >>> data.groupby(group_key).apply(fill_mean) ohio -1.032728 new york -1.162002 vermont -0.922072 florida -0.571487 oregen -0.997641 nevada 0.075920 california 1.149481 idaho 0.075920 dtype: float64
4、分组加权平均数和相关系数
根据 拆分-应用-合并 范式,DataFrame的列与列之间或两个Series之间的运算成为一种标准运算
>>> df=DataFrame({'category':['a','a','a','a','b','b','b','b'],'data':np.random.randn(8),'weights':np.random.rand(8)}) >>> df category data weights 0 a -1.196080 0.247188 1 a -1.695342 0.914525 2 a 1.521977 0.483654 3 a 0.814892 0.267910 4 b -0.507479 0.204920 5 b -0.696985 0.097827 6 b -0.748492 0.105464 7 b 0.837663 0.404254 >>> grouped=df.groupby('category') >>> get_wavg=lambda g:np.average(g['data'],weights=g['weights']) >>> grouped.apply(get_wavg) category a -0.466038 b 0.107713 dtype: float64
5、面向分组的线性回归
你可以用groupby执行分组更为复杂的分组统计分析,只要函数返回的是pandas对象或者标量值即可。
透视表和交叉表
在pandas中,可以通过groupby功能以及重塑运算制作透视表,DataFrame还有一个pivot_table方法,此外还有一个顶级的pandas.pivot_table函数。
>>> tips.pivot_table(index=['sex','smoker']) size tip total_bill sex smoker Female No 2.592593 2.773519 18.105185 Yes 2.242424 2.931515 17.977879 Male No 2.711340 3.113402 19.791237 Yes 2.500000 3.051167 22.284500 >>> tips.pivot_table(['tip_pct','size'],index=['sex','day'],columns='smoker') size smoker No Yes sex day Female Fri 2.500000 2.000000 Sat 2.307692 2.200000 Sun 3.071429 2.500000 Thur 2.480000 2.428571 Male Fri 2.000000 2.125000 Sat 2.656250 2.629630 Sun 2.883721 2.600000 Thur 2.500000 2.300000
要使用其他的聚合函数,可将函数传入aggfunc参数即可
>>> tips.pivot_table('size',index=['sex','smoker'],columns='day',aggfunc=len) day Fri Sat Sun Thur sex smoker Female No 2 13 14 25 Yes 7 15 4 7 Male No 2 32 43 20 Yes 8 27 15 10
交叉表是一种用于计算分组频率的特殊透视表
>>> pd.crosstab([tips.time,tips.day],tips.smoker,margins=True) #指定行与列交叉统计,margins参数用于是否进行分项小计 smoker No Yes All time day Dinner Fri 3 9 12 Sat 45 42 87 Sun 57 19 76 Thur 1 0 1 Lunch Fri 1 6 7 Thur 44 17 61 All 151 93 244
posted on 2016-03-22 09:26 splended 阅读(71286) 评论(1) 编辑 收藏 举报