八股文-特征归一化

为什么需要特征归一化？

消除量纲的影响，加快收敛速率。采用梯度下降的角度来说。特征空间是圆形比椭圆更容易收敛。
采用梯度下降求解的模型，如神经网络，支持向量机等需要特征归一化。树模型一般不需要。

原始特征下，因尺度差异，其损失函数的等高线图可能是椭圆形，梯度方向垂直于等高线，下降会走zigzag路线，而不是指向local minimum。通过对特征进行zero-mean and unit-variance变换后，其损失函数的等高线图更接近圆形，梯度下降的方向震荡更小，收敛更快。

常用归一化方法。

1.归一化到【0，1】之间。即（X-Xmin）/（Xmax-Xmin）
2.归一化到均值为0，方差为1.即减去平均除以标准差。
3.特征向量除以其模长。即归一化到单位向量。

选择那种方式需要具体问题考虑。

      归一化/标准化的目的是为了获得某种“无关性”——偏置无关、尺度无关、长度无关……当归一化/标准化方法背后的物理意义和几何含义与当前问题的需要相契合时，其对解决该问题就有正向作用，反之，就会起反作用。

zero-mean一般可以增加样本间余弦距离或者内积结果的差异，区分力更强，假设数据集集中分布在第一象限遥远的右上角，将其平移到原点处，可以想象样本间余弦距离的差异被放大了。在模版匹配中，zero-mean可以明显提高响应结果的区分度。
就欧式距离而言，增大某个特征的尺度，相当于增加了其在距离计算中的权重，如果有明确的先验知识表明某个特征很重要，那么适当增加其权重可能有正向效果，但如果没有这样的先验，或者目的就是想知道哪些特征更重要，那么就需要先feature scaling，对各维特征等而视之。

posted @ 2024-10-14 14:31 continu~ 阅读(17) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 重修微积分1

· 向量检索-PQ乘积量化算法

· 为什么要对数值类型的特征做归一化

· 数据归一化

· 特征工程的归一化和标准化

阅读排行：
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】

公告

昵称： continu~
园龄： 9个月
粉丝： 1
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

jiyuebo

八股文-特征归一化

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜