dataframe分组与聚合

import pandas as pd

# 准备数据集
df = pd.read_excel('https://www.gairuo.com/file/data/dataset/team.xlsx')
df.head()

	name	team	Q1	Q2	Q3	Q4
0	Liver	E	89	21	24	64
1	Arry	C	36	37	37	57
2	Ack	A	57	60	18	84
3	Eorge	C	93	96	71	78
4	Oah	D	65	49	61	86

分组对象具体是什么

# 创建分组对象
grouped = df.groupby('team')

# 可将grouped看成一个DataFrame，指定‘team’为分组索引，可进行迭代
for i in grouped:
    print(i)
    break # 只输出一层

('A',        name team  Q1  Q2  Q3  Q4
2       Ack    A  57  60  18  84
7      Lfie    A   9  10  99  37
9     Oscar    A  77   9  26  67
16   Joshua    A  63   4  80  30
17    Henry    A  91  15  75  17
20    Lucas    A  60  41  77  62
22   Arthur    A  44  53  42  40
34  Reggie1    A  30  12  23   9
40     Toby    A  52  27  17  68
42    Dylan    A  86  87  65  20
51    Hugo0    A  28  25  14  71
67    Caleb    A  64  34  46  88
70   Nathan    A  87  77  62  13
71    Blake    A  78  23  93   9
75  Stanley    A  69  71  39  97
79    Tyler    A  75  16  44  63
88    Aaron    A  96  75  55   8)

# 获取A组，是一个DataFrame
grouped.get_group('A')

	name	team	Q1	Q2	Q3	Q4
2	Ack	A	57	60	18	84
7	Lfie	A	9	10	99	37
9	Oscar	A	77	9	26	67
16	Joshua	A	63	4	80	30
17	Henry	A	91	15	75	17
20	Lucas	A	60	41	77	62
22	Arthur	A	44	53	42	40
34	Reggie1	A	30	12	23	9
40	Toby	A	52	27	17	68
42	Dylan	A	86	87	65	20
51	Hugo0	A	28	25	14	71
67	Caleb	A	64	34	46	88
70	Nathan	A	87	77	62	13
71	Blake	A	78	23	93	9
75	Stanley	A	69	71	39	97
79	Tyler	A	75	16	44	63
88	Aaron	A	96	75	55	8

# 将grouped看成一个DataFrame，取Q1列进行求和（分组求和）
print(grouped['Q1'].sum())  # 取出来是一个Series
grouped[['Q1']].sum() # 取出来是一个DataFrame

team
A    1066
B     975
C    1056
D     860
E     963
Name: Q1, dtype: int64

	Q1
team
A	1066
B	975
C	1056
D	860
E	963

# 只有数值字段参与求和运算
df.groupby('team').sum()

	Q1	Q2	Q3	Q4
team
A	1066	639	875	783
B	975	1218	1202	1136
C	1056	1194	1068	1127
D	860	1191	1241	1199
E	963	1013	881	1033

取消分组索引

# 默认以分组标签作为索引，也可取消索引
df.groupby('team', as_index=False).sum()

	team	Q1	Q2	Q3	Q4
0	A	1066	639	875	783
1	B	975	1218	1202	1136
2	C	1056	1194	1068	1127
3	D	860	1191	1241	1199
4	E	963	1013	881	1033

df.groupby('team', as_index=False).team.count()

	team
0	17
1	22
2	22
3	19
4	20

对不同列使用不同的计算方法

df.groupby('team', as_index=False).agg({
    'Q1':sum,
    'Q2':'count',
    'Q3':'mean',
    'Q4':max
})

	team	Q1	Q2	Q3	Q4
0	A	1066	17	51.470588	97
1	B	975	22	54.636364	99
2	C	1056	22	48.545455	98
3	D	860	19	65.315789	99
4	E	963	20	44.050000	98

# 对同一列使用不同的计算方法
df.groupby('team').agg({'Q1':[sum,'count','std',max]})

	Q1
	sum	count	std	max
team
A	1066	17	24.155136	96
B	975	22	32.607896	97
C	1056	22	31.000768	98
D	860	19	25.886166	80
E	963	20	33.242767	97

# agg方法无法实现同一列的不同计算方法
df.groupby('team', as_index=False).agg({
    'Q1':sum,
    'Q1':'count',
    'Q1':'std',
    'Q1':max #只显示最后一个计算
})

	team	Q1
0	A	96
1	B	97
2	C	98
3	D	80
4	E	97

# 分组对象使用apply()调用一个函数（此处调用lambda函数，并传入一个Series映射），传入apply()的是DataFrame
df.groupby('team', as_index=False).apply(lambda x: pd.Series({
    'Q1_sum': x['Q1'].sum(),
    'Q1_count': x['Q1'].count(),
    'Q1_std': x['Q1'].std(),
    'Q1_max': x['Q1'].max()
}))

	team	Q1_sum	Q1_count	Q1_std	Q1_max
0	A	1066.0	17.0	24.155136	96.0
1	B	975.0	22.0	32.607896	97.0
2	C	1056.0	22.0	31.000768	98.0
3	D	860.0	19.0	25.886166	80.0
4	E	963.0	20.0	33.242767	97.0

使用自定义计算函数

def fun(ls):
  #组内差值10以内返回1，否则返回0
  for i in range(len(ls)-1):
    for j in range(i,len(ls)):
      if abs(ls[i]-ls[j])>10:
        continue
      else:
        return 1 #return为函数的结束标志
  return 0

df.groupby('team', as_index=False).apply(lambda x: pd.Series({
    'delta': fun(x['Q4'].tolist())
}))

# 计算各组Q1及格和不及格人员的熵值
def entropy(df):
  s=df['Q1'].sum()
  r1=df[df['Q1']>=60]['Q1'].sum()
  r2=df[df['Q1']<60]['Q1'].sum()
  return -(r1/s)*math.log((r1/s),2)-(r2/s)*math.log((r2/s),2)

df.groupby('team', as_index=False).apply(lambda x: pd.Series({
    'entropy': entropy(x) # x为pandas.DataFrame对象
}))

以表达式、函数进行分组

# 索引值是否为偶数，分成两组
df.groupby(lambda x: x%2==0).sum() # 以默认的索引进行分组
df.groupby(df.index%2==0).sum() # 也可指定分组索引

	Q1	Q2	Q3	Q4
False	2322	2449	2823	2699
True	2598	2806	2444	2579

# 列名包含Q的分为一组
df.groupby(lambda x: 'Q' in x, axis=1).sum() #字符串求和等于拼接

	False	True
0	LiverE	198
1	ArryC	167
2	AckA	219
3	EorgeC	338
4	OahD	261
...	...	...
95	GabrielC	268
96	Austin7C	125
97	Lincoln4C	212
98	EliE	234
99	BenE	179

100 rows × 2 columns

# 按姓名首字母为元音、辅音分组
def get_letter_type(letter):
    if letter[0].lower() in 'aeiou':
        return '元音'
    else:
        return '辅音'
    
# 使用上述函数进行分组
df.set_index('name').groupby(get_letter_type).sum()

	Q1	Q2	Q3	Q4
元音	1462	1440	1410	1574
辅音	3458	3815	3857	3704

# 指定多个分组索引
df.groupby(['team', df.name.apply(get_letter_type)]).sum()

		Q1	Q2	Q3	Q4
team	name
A	元音	274	197	141	199
A	辅音	792	442	734	584
B	元音	309	291	269	218
B	辅音	666	927	933	918
C	元音	473	488	453	464
C	辅音	583	706	615	663
D	元音	273	333	409	486
D	辅音	587	858	832	713
E	元音	133	131	138	207
E	辅音	830	882	743	826

将分组中的一列输出为列表

# 创建示例数据
tmp = pd.DataFrame({'team':['A','A','A','B','B','B'],'name':['Eric','Eric','Tony','Tony','Tom','Tom',]})
tmp

	team	name
0	A	Eric
1	A	Eric
2	A	Tony
3	B	Tony
4	B	Tom
5	B	Tom

tmp.groupby('team').apply(lambda x: x['name'].to_list())

team
A    [Eric, Eric, Tony]
B      [Tony, Tom, Tom]
dtype: object

# 去重后输出列表：unique
pd.DataFrame(tmp.groupby('team')['name'].unique()).rename(columns={'name':'agg_name'})

	agg_name
team
A	[Eric, Tony]
B	[Tony, Tom]

# 去重后输出列表长度：nunique
pd.DataFrame(tmp.groupby('team')['name'].nunique()).rename(columns={'name':'num'})

	num
team
A	2
B	2

# 使用apply() 合并输出上述2个结果
tmp.groupby('team', as_index=False).apply(lambda x: pd.Series({
    'agg_name': x['name'].unique(),
    'num': x['name'].nunique()
}))

	team	agg_name	num
0	A	[Eric, Tony]	2
1	B	[Tony, Tom]	2

窗口函数

df['Q1_mean'] = df.groupby('team')['Q1'].transform('mean')
df.sort_values(by='team', ascending=False)

	name	team	Q1	Q2	Q3	Q4	Q1_mean	Q1_size
0	Liver	E	89	21	24	64	48.150000	20
19	Max	E	97	75	41	3	48.150000	20
26	Teddy	E	71	91	21	48	48.150000	20
29	Riley	E	35	26	59	83	48.150000	20
31	Joseph	E	67	87	87	93	48.150000	20
...	...	...	...	...	...	...	...	...
34	Reggie1	A	30	12	23	9	62.705882	17
70	Nathan	A	87	77	62	13	62.705882	17
79	Tyler	A	75	16	44	63	62.705882	17
71	Blake	A	78	23	93	9	62.705882	17
51	Hugo0	A	28	25	14	71	62.705882	17

100 rows × 8 columns

df['Q1_size'] = df.groupby('team')['Q1'].transform('count')
df.sort_values(by='team', ascending=False)

	name	team	Q1	Q2	Q3	Q4	Q1_mean	Q1_size
0	Liver	E	89	21	24	64	48.150000	20
19	Max	E	97	75	41	3	48.150000	20
26	Teddy	E	71	91	21	48	48.150000	20
29	Riley	E	35	26	59	83	48.150000	20
31	Joseph	E	67	87	87	93	48.150000	20
...	...	...	...	...	...	...	...	...
34	Reggie1	A	30	12	23	9	62.705882	17
70	Nathan	A	87	77	62	13	62.705882	17
79	Tyler	A	75	16	44	63	62.705882	17
71	Blake	A	78	23	93	9	62.705882	17
51	Hugo0	A	28	25	14	71	62.705882	17

100 rows × 8 columns

# 窗口函数 row_number()功能
def row_number(df, par_list, order_list, asc_list):
    df['rn'] = 1
    df.sort_values(by=par_list+order_list,
                   ascending=[True]*len(par_list)+asc_list, 
                   inplace=True)

    df['rn'] = df.groupby(par_list)['rn'].cumsum()
    

# 示例
row_number(df=df, par_list=['team'], order_list=['Q1','Q2'], asc_list=[True,False])

posted on 2023-05-27 09:32 chenxiaoyuan 阅读(374) 评论(0) 收藏举报

刷新页面返回顶部

日食三餐夜眠六尺

导航

公告

dataframe分组与聚合

分组对象具体是什么

取消分组索引

对不同列使用不同的计算方法

使用自定义计算函数

以表达式、函数进行分组

将分组中的一列输出为列表

窗口函数