Pandas---8.聚合与分组
一、分组
1.分组运算的过程为:拆分-应用-合并
- 拆分阶段:
Series/DataFrame
等数据根据你提供的一个或者多个键,被拆分为多组 - 应用阶段:根据你提供的一个函数应用到这些分组上
- 合并阶段:将函数的执行结果合并到最终结果中
2.分组中有两种数据:源数据(被分组的对象),分组数据(用于划分源数据的)
- 源数据每一行(axis=0) 对应于分组数据中的一个元素。分组数据中每一个唯一值对应于一个分组。
- 当分组数据也在源数据中时,可以直接通过指定列名来指定分组数据(值相同的为同一组)。
3.Series/DataFrame.groupby
Series/DataFrame.groupby()方法是分组方法:
1 2 | Series / DataFrame.groupby(by = None , axis = 0 , level = None , as_index = True , sort = True , group_keys = True , squeeze = False , * * kwargs) |
参数:
-
by
:一个mapping function
、list of function
、一个字典、一个序列、一个元组、一个list of column name
。它指定了分组数据。-
如果传入了函数,则在每个
index value
上调用函数来产生分组数据 -
如果是
Series
或者字典,则根据每个index value
在字典/Series
中的值来产生分组数据 -
如果是个
column label
,则使用该label
抽取出来的一列数据产生分组数据 -
如果是个
column label
的list
,则使用一组column label
抽取出来的多列数据作为分组数据。 -
如果是个序列,则它直接指定了分组数据。
-
如果是个序列的序列,则使用这些序列拼接成一个
MulitiIndex
,然后根据这个MultiIndex
替换掉index
后,根据label value
来分组。(事实上并没有替换,只是用于说明这个过程)如果
axis=1
,则index label
替换成column label
-
-
axis
:指定沿着哪个轴分组。可以为0/'index'
,表示沿着 0轴。可以为1/'columns'
,表示沿着 1轴 -
level
:一个整数、level name
或者其序列。如果axis
是个MultiIndex
,则在指定级别上的索引来分组 -
as_index
:一个布尔值。如果为True
,则将group label
作为输出的index
。如果为False
,则输出是SQL
风格的分组(此时分组的key
作为一列,而不是作为index
)。Series
中,该参数必须为True
。 -
sort
:一个布尔值。如果为True
,则对分组的键进行排序。 -
group_keys
:一个布尔值。如果为True
,且调用了函数来决定分组,则添加分组键来区分不同的数据(否则你不知道每一行数据都对应于哪里) -
squeeze
:一个布尔值。如果为True
,则尽可能的缩减结果的类型。
该函数返回一个GroupBy
对象。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 使用C#创建一个MCP客户端
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 按钮权限的设计及实现
2018-12-27 去掉python的警告