pandas 4
参考资料:https://mp.weixin.qq.com/s/QnxaOrvlWJn6Dr42Ic1CcQ
1 #只选取housing,loan,contac和poutcome
test_data[(test_data['age']==51) & (test_data['job']>=5)][['education','housing','loan','contact','poutcome']].head()
2 10%分位数 d1.quantile(0.1)
3 中位数 d1.median()
4 众数 d1.mode()
5 方差 d1.var()
6 标准差 d1.std()
7 平均绝对偏差 d1.mad()
8 偏度 d1.skew()
9 峰度 d1.kurt()
10 df.corr() #相关系数的计算方法可以调用pearson方法、kendall方法、或者spearman方法,默认使用的是pearson方法
df.corr('spearman') df.corr('pearson') df.corr('kendall')
#如果只关注某一个变量与其余变量的相关系数的话,可以使用corrwith,如下方只关注x1与其余变量的相关系数
df.corrwith(df['x1'])
11 修改liu学生的身高为173 student3.loc[student3['Name']=='Liu','Height']=173
12 对每个分组计算多个统计量 student3.drop('Age',axis=1).groupby('Sex').agg([np.mean,np.median])
13 student3.sort_values(by=['Sex','Age'])
14 行方向上至少有3个非NAN的项保留 df.dropna(thresh=3)
在列方向上至少保留有3个非NAN的项保留 df.dropna(thresh=3,axis=1)
15 df.fillna(0)
采用前项填充或后项填充,用一个观测值填充 df.fillna(method='ffill')
用后一个观测值填充--这样会导致最后边的无法填充Nan df.fillna(method='bfill')
使用常量填充不同的列 df.fillna({'x1':1,'x2':2,'x3':3})
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)