[数据分析工具] Pandas 功能介绍(二)
条件过滤
我们需要看第一季度的数据是怎样的,就需要使用条件过滤
体感的舒适适湿度是40-70,我们试着过滤出体感舒适湿度的数据
最后整合上面两种条件,在一季度体感湿度比较舒适的数据
列排序
数据按照某列进行排序
“by”参数可以使用字符串,也可以是列表,ascending 的参数也可以是单个值或者列表
ascending 默认值是 True
列中的每行上的 apply 函数
在前一篇的增加列的部分,根据风速计算人体感觉是否舒适,为了功能的演示,在这里使用 DataFrame 的 apply 方法,他会在指定列的每个值上执行。详见代码:
均值和标准差
我们通过 describe 方法查看的统计信息中均值和方差都是按照列统计呢,这里要说的,既可以按照列,还可以按照行
均值,行 df.mean(axis=0),列df.mean(axis=1)
方差,行 df.std(axis=0),列df.std(axis=1)
DataFrame 转换为 Numpy
DataFrame 合并
连接合并
在两个 df 的结果一致的情况下,我们可以简单两个 df 拼接起来
垂直(行)拼接,pd.concat([df1,df2],axis=0),水平(列)拼接,pd.concat([df1,df2],axis=1)
基于索引关键字合并
Pandas 还提供了像 SQL 一样的连接,内联,外联,左联,右联
作为我们的示例数据,可以唯一标识一行的就是 Datatime 列
merged_df = df_1.merge(df_2, how='left', on='datetime')
在 DataFrame 中查找 NaN
每行有多少 NaN,df.isnull().sum()
Dataframe 中 NaN 的总数,上面统计出来的数量求和,df.isnull().sum().sum()
分组 Group By
分组在数据统计的时候经常使用。特别是统计数量、计算和、求平均值,等等。
我们在这里统计一下每个季度的假期数是多少
在统计一下,每个季度的平均分风速是多少
定义范围
如果我们想根据风力把风的等级区分出来,你可能可快就想到上面刚刚介绍的 apply,不过,现在介绍另外一种方式
通过这两次的分享,我们已经了解了 pandas 数据处理常用的方式方法。
文件内容简单说明:
文件地址:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
· SQL Server 2025 AI相关能力初探