特征工程的概念
1.1 特征工程是什么
特征工程(feature engineering)
将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能。
Color,Time即是无用的属性
坏属性(冗余属性)的影响
1.模型过拟合
2.时间成本高
1.2 特征工程效果评估
特征工程的效果评估
1.在应用特征工程之前,得到机器学习模型的基准性能;
2.在机器学习流水线中应用一种或多种特征工程;
3.将应用特征工程后的模型性能与基准性能进行对比。
性能的定义随算法的不同而改变,目前有数十种公认的指标
常见的有
评估回归问题的:
k折交叉验证
均方误差
评估无监督学习的:
轮廓系数
1.3定性定量
评分(1~5星) ,是定量还是定性?
➢定量:有4.71星这样的平均分则是定量的。
➢定量:有4.71星这样的平均分则是定量的。定性:讨厌、还行、喜欢、喜爱还是特别喜爱。
定性定量的界限是比较模糊的,所以我们引入数据等级进行细化。
1.4数据的等级
数据的4个等级
➢定类等级(nominal level)
➢定序等级(ordinal level)
➢定距等级(interval level)
➢定比等级(ratio level)
定类等级(nominal level)
➢定类等级是数据的第一个等级,只按名称分类。
➢血型(A、 B、 O和AB型)、性别(男、女)动物物种和人名。
➢可以执行的数学操作:统计众数(频次) 、不能执行任何定量数学操作。
定序等级
➢类别数据,定序等级的数据可以自然排序。
➢李克特量(比如1~10的评分);考试的成绩(F、D、C、B、A)。
➢可以执行的数学操作计数、比较和排序、计算中位数和百分位数
定距等级
➢定量数据,值之间的差异有意义,无绝对零点。
➢例:温度: 32°C, 4°C,可以计算出32 - 4 = 28°C的温差。
➢可以做加减运算,不能做乘除运算。
定比等级
➢定量数据,最高级别的控制和数学运算,有了一个绝对零点的概念,可以做乘除运算
➢如模型准确率、国民生产总值。
算法模型能够处理的都是定比或定距等级的数据(也就是定量的数据)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· .NET10 - 预览版1新功能体验(一)