如何对特征进行分析
1.对数据进行概览,观测其异常值和缺失值,异常值可以通过qq图或设定偏离均值一定方差范围以外的阈值进行过滤。
2.缺失值和异常值处理,根据具体情况,是否需要对缺失值进行删除或填充,是否需要将异常值删除或将其处理到正常范围以内。
3.利用描述性统计量和箱线图观察样本各个特征分布情况。需要注意:观察不同类别样本数量是否均衡,对于不均衡的情况,训练模型时可以采用分层抽样或增加样本量较少类别的样本量。
4.利用平行坐标图观察特征和类别之间的联系。平行坐标图中的横轴为各个特征,纵轴为特征取值,一个样本对应各个特征取值的一条连线,类别反应在连线的颜色中。通过观察不同特征上各类别颜色的聚集区分程度可以看出哪个特征区分效果好。
5.各特征间以及特征和标签间的相关系数热力图,观察他们之间的相关性。进一步可通过散点图(seaborn.pairplot)观察特征间的关系。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?