Python数据分析 | Pandas数据分组与操作

ShowMeAI研究中心

作者：韩信子@ShowMeAI
教程地址：https://www.showmeai.tech/tutorials/33
本文地址：https://www.showmeai.tech/article-detail/148
声明：版权所有，转载请联系平台与作者并注明出处

当我们提到python数据分析的时候，大部分情况下都会使用Pandas进行操作。pandas整个系列覆盖以下内容：

一、Pandas数据分组与操作

在我们进行业务数据分析时，经常要对数据根据1个或多个字段分为不同的组（group）进行分析处理。如电商领域可能会根据地理位置分组，社交领域会根据用户画像（性别、年龄）进行分组，再进行后续的分析处理。

Pandas中可以借助groupby操作对Dataframe分组操作，本文介绍groupby的基本原理及对应的agg、transform和apply方法与操作。

我们先模拟产出1个Dataframe：

 import numpy as np
import pandas as pd
 
company=["A","B","C"]
 
data=pd.DataFrame({
    "company":[company[x] for x in np.random.randint(0,len(company),10)],
    "salary":np.random.randint(5,50,10),
    "age":np.random.randint(15,50,10)})

二、Groupby分组及应用

2.1 分组

pandas实现分组操作的很简单，只需要把分组的依据(字段)放入groupby中，例如下面示例代码基于company分组：

 group = data.groupby("company")

经过groupby处理之后我们会得到一个DataFrameGroupBy对象：

 group

 # 输出
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001C67C072BE0>

这个生成的DataFrameGroupBy是什么？data经过groupby处理后发生了什么？

上面返回的Groupby处理结果是内存地址，并不利于直观地理解，我们可以把group转换成list的形式来看一看内部数据和整个过程：

 list(group)

转换成列表的形式后，可以看到，列表由三个元组组成，每个元组中：

第一个元素是组别（这里是按照company进行分组，所以最后分为了A,B,C）
第二个元素的是对应组别下的DataFrame

总结一下，groupby将原有的DataFrame按照指定的字段（这里是company），划分为若干个分组DataFrame。groupby之后可以进行下一步操作，注意，在groupby之后的一系列操作（如agg、apply等），均是基于子DataFrame的操作。

下面我们一起看看groupby之后的常见操作。

2.2 agg 聚合操作

聚合统计操作是groupby后最常见的操作，类比于SQL中我们会对数据按照group做聚合，pandas中通过agg来完成。聚合操作可以用来求和、均值、最大值、最小值等，下表为Pandas中常见的聚合操作：

例如，计算不同公司员工的平均年龄和平均薪水，示例代码如下：

 data.groupby("company").agg('mean')

或者针对不同字段做不同的计算处理，例如，要计算不同公司员工的平均年龄、薪水的中位数。可以利用字典进行聚合操作：

 data.groupby('company').agg({'salary':'median','age':'mean'})

我们对agg聚合过程进行图解，如下所示：

2.3 transform变换

transform是另外一个pandas分组后会使用到的方法，我们举例来说明它的用法。

上述agg应用例子中，我们计算了不同公司员工的平均薪水，如果现在需要新增一列avg_salary，代表员工所在的公司的平均薪水（相同公司的员工具有一样的平均薪水），我们就可以借助transform来完成。

要完成上述任务，我们需要先求得不同公司的平均薪水，再按照员工和公司的对应关系填充到对应的位置，使用之前学到的map方法可以拆解实现如下：

 avg_salary_dict = data.groupby('company')['salary'].mean().to_dict()
 
data['avg_salary'] = data['company'].map(avg_salary_dict)
 
data

而transform方法可以帮助我们一行实现全过程：

 data['avg_salary'] = data.groupby('company')['salary'].transform('mean')
 
data

下面对groupby+transform的过程做图解帮助理解：

注意图中大方框，展示了transform和agg不一样的计算过程：

agg：会计算得到A，B，C公司对应的均值并直接返回
transform：会对每一条数据求得相应的结果，同一组内的样本会有相同的值，组内求完均值后会按照原索引的顺序返回结果

2.4 apply方法

之前我们介绍过对Dataframe使用apply进行灵活数据变换操作处理的方法，它支持传入自定义函数，实现复杂数据操作。apply除了之前介绍的用法，也可以用在groupby后，我们一起来学习一下。

对于groupby后的apply，实际上是以分组后的子DataFrame作为参数传入指定函数的，基本操作单位是DataFrame，而之前介绍的apply的基本操作单位是Series。我们通过一个案例来理解一下。

加入我们需要获取各个公司年龄最大的员工的数据，可以通过以下代码实现：

 def get_oldest_staff(x):
     df = x.sort_values(by = 'age',ascending=True)
     return df.iloc[-1,:]
 
oldest_staff = data.groupby('company',as_index=False).apply(get_oldest_staff)
 
oldest_staff

我们对上面的过程图解帮助理解：

本例中的apply传入函数的参数由Series变成这里的分组DataFrame。相比于agg和transform，apply方法拥有更大的灵活性，但它的运行效率会比agg和transform慢。所以，groupby之后怼数据做操作，优先使用agg和transform，其次再考虑使用apply进行操作。

资料与代码下载

本教程系列的代码可以在ShowMeAI对应的github中下载，可本地python环境运行，能访问Google的宝宝也可以直接借助google colab一键运行与交互操作学习哦！

本系列教程涉及的速查表可以在以下地址下载获取

拓展参考资料

ShowMeAI图解数据分析系列推荐（数据科学家入门）

ShowMeAI系列教程精选推荐

posted @ 2022-02-25 16:49 ShowMeAI 阅读(615) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Python数据分析 | Pandas核心操作函数大全

· Python数据分析 | Pandas数据变换高级函数

· pandas 数据分组——聚合agg、转换 transform和应用apply

· Pandas|groupby()

· 简单理解pandas的groupby函数

公告

http://www.showmeai.tech/

昵称： ShowMeAI
园龄： 3年3个月
粉丝： 87
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

ShowMeAI

『为AI硬核资料库(cool)而生！』构建AI解决方案，用知识加速每一次技术成长！公众号：ShowMeAI研究中心

Python数据分析 | Pandas数据分组与操作

一、Pandas数据分组与操作

二、Groupby分组及应用

2.1 分组

2.2 agg 聚合操作

2.3 transform变换

2.4 apply方法

资料与代码下载

本系列教程涉及的速查表可以在以下地址下载获取

拓展参考资料

ShowMeAI图解数据分析系列推荐（数据科学家入门）

ShowMeAI系列教程精选推荐

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

	import numpy as np
	import pandas as pd

	company=["A","B","C"]

	data=pd.DataFrame({
	"company":[company[x] for x in np.random.randint(0,len(company),10)],
	"salary":np.random.randint(5,50,10),
	"age":np.random.randint(15,50,10)})

	# 输出
	<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001C67C072BE0>

	avg_salary_dict = data.groupby('company')['salary'].mean().to_dict()

	data['avg_salary'] = data['company'].map(avg_salary_dict)

	data

	data['avg_salary'] = data.groupby('company')['salary'].transform('mean')

	data

	def get_oldest_staff(x):
	df = x.sort_values(by = 'age',ascending=True)
	return df.iloc[-1,:]

	oldest_staff = data.groupby('company',as_index=False).apply(get_oldest_staff)

	oldest_staff