数据的偏度skew和峰度kurtosis
偏度和峰度是数据处理中常用的用来分析数据分布程度的指标,Pandas中提供了这两个函数。
skew 偏度
偏度(skew),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。公式如下:
上式中:
μ为均值,σ为标准差,E为期望算子,μ3为第三中心矩,κt为t阶累积量。
下图体现了相对于正态分布的偏度正负值:
Pandas使用示例:
# importing pandas as pd
import pandas as pd
# Creating the dataframe
df = pd.read_csv("nba.csv")
# skewness along the index axis
df.skew(axis = 0, skipna = True)
# use on df.groupby
df.groupby(['group'])["feature"].skew()
kurtosis 峰度
峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。
其中μ4为第四中心矩,σ为标准差。文献中用了几个字母来表示峰度。最常见的选择是κ,只要明确表示它不指向累积量就可以。其他选择包括γ2,类似于偏斜度的符号,尽管有时这被保留为多余的峰度。
Pandas使用示例:
# importing pandas as pd
import pandas as pd
# Creating the dataframe
df = pd.read_csv("nba.csv")
# skewness along the index axis
df.kurtosis(axis = 0, skipna = True)
# use on df.groupby
df.groupby(['group'])["feature"].apply(pd.DataFrame.kurt)
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
2020-04-07 Sei ceri c++ 笔记第3章(Expressions (EXP))