天池蒸汽预测入门赛第二步--------数据探索

今天参考天池教程做完了蒸汽预测项目的第二块:数据探索

熟悉了一些pandas、matplotlib、seaborn、stats的基本的操作与概念,使得阅读相关项目代码能力变强了,进行比赛数据探索的经验增加了。、

不过对于对应库函数里面的一些参数用法还没有很熟练,由于第一次,只求大致理解代码含义,有一些参数就没有去弄清楚作用。这一点希望在以后的实践中不断地取得进步。

总结用法如下

pandas:

pd.frame.info()#基本信息

pd.frame.describe()#统计信息

pd.frame.head()#数据集头部信息

#如果经过groupby之后pd.frame.goupby.(head(n)/tail(n))则是显示goupby分组后每一组的前/后n项并合成在同一个表里显示,这一点要理解

pd.frame.drop(axis=0/1)#通过axis=0/1控制要drop的是该行还是该列

pd.frame.corr()#返回一个相关性系数矩阵

 

seaborn:

sns.boxplot#画箱式图,大致观察数据的分布区间,有无异常值等

sns.distplot()#画直方图

sns.kdeplot()#画kde图(平滑直方图)

sns.heatmap()#画热力图,用颜色区分不同区间的相关系数来更直观的显示相关系数矩阵

 

matplotlib:

plt.subplot()#基本的画图函数参数可设置子图的行列数以及子图序号

#subplot和subplots的区别还没搞很清楚

 

stats:

stats.norm#正态分布,返回值不清楚

stats.probplot()#画概率图,含义不太清楚

 

以上为方法总结,关于知识总结,主要是在刚拿到训练数据一些从统计角度分析各个特征的方法:

1.单个特征探索:

①基本函数info、describe、head;

②画出该特征变量的分布曲线与正态分布的比较。

③画kde曲线图,比较同一特征变量在train和test上面的分布情况差异是否一致,依据此标准可考虑剔除某些特征

2.变量关系探索:

①特征与目标值之间线性相关性的分析,画Q-Q图粗略判断,通过分析特征变量与target之间相关系数的大小,选择相关性系数高的特征作为之后构成train的主力(如果依据是线性相关),如果有更复杂的关系,可以用树模型的特征重要性方法去选择特征,这里暂时没有实例,先留一个印象。

②上述通过相关性pd.frame.corr()矩阵和sns.heatmap实现显示相关性,并将得到的矩阵通过drop来得到与target的那一列/行相关性数据。

③box-cox变换,归一化(针对线性模型满足正态性、线性、独立性、方差齐性等)这里略去,感觉不是特别关键,而且代码较多,先把整个流程过一遍,之后的一些奇淫巧技再慢慢补足,把握基本盘。

 

明天开始蒸汽预测项目的特征工程。

此外,老师那里的项目深度神经网络开始分工,今晚去探讨,不过由于之前一些课程的简单的深度神经网络图像识别由于恐惧都没怎么尝试,所以晚上讨论分工感觉会有点尴尬。不过看了看同学的keras代码,查一下keras文档感觉也不是很难,也就是调调库抄一抄搭搭积木的事情,花点时间就好,但是重要的是去实践,多问多动手,时间不能花在犹豫和骂老师口嗨上面,这样是解决不了问题的。之前还是被老师的疏于指导和自己的主动性不足形成了壁垒,最近开始每天保持编程,写博客,感觉是越来越走上正轨了。今后也会记录一些深度神经网络图像识别和智能优化方面的内容。

 

posted @   wjybq  阅读(73)  评论(0编辑  收藏  举报
编辑推荐:
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
点击右上角即可分享
微信分享提示