(Z-Score,0-1,稳健标准化RobustScaler, L_p归一化normalizer,小数定标, Logistic)标准化方法的优缺点和适用范围
1. Z-Score标准化
对数据系列中的每一个数据点作减去均值并除以方差的操作,使得处理后的数据近似符合(0,1) 的标准正态分布:
xi∗=(xi−μ)/σx_i^*=(x_i-μ)/σ
优点:
1) 计算相对简单,在计算机编程软件中操作方便;
2) 能够消除量级为数据分析带来的不便,不受数据量级的影响,保证了数据间的可比性.
缺点:
1) 计算时需要得到总体的均值及标准差,在数据较多时难以实现,大多数情况下用样本均值及标准差代替,此举会导致分析结果与真实结果之间会存在差异;
2) 极大程度上改变了数据的原始意义,使得只能比较数据之间的关系,导致这种标准化方法的现实意义需要在比较中实现;
3) 对数据的相关性有要求,只有在数据大致符合正态分布时才能得到最佳结果.
适用范围:适用于数据系列中最大值和最小值未知,有超出取值范围的离群数据的情况。或者是数据分布非常离散的情况.
2. 0-1标准化
对数据系列作线性变换,使得处理过后数据均落在[0,1]区间内:
xi∗=(xi−min)/(max−min)x_i^*=(x_i-min)/(max-min)
优点:
1) 无论原始数据是正值还是负值,经过0-1标准化之后各个观察值的数值变化范围都满足条件 0≪x′≪10≪x'≪1
,并且正指标、逆指标均可转化为正向指标,使其作用方向一致,易于比较;
2) 能够消除变异量纲和变异范围的影响,确保数据是在同一量纲下进行比较.
缺点:
1) 在新数据加入后,可能导致最大值和最小值发生变化,就需要重新定义标准化变量,计算量大幅增加;
2) 标准化之后只能比较数据的分布情况,适用场景较为单一.
适用范围:0-1标准化适用于需要将数据简单地变换映射到某一区间中进行比较,观测数据的分布情况.
3. 稳健标准化RobustScaler
使用数据的四分位数进行标准化处理:
xi∗=(xi−median)/(Q3(x)−Q1(x))x_i^*=(x_i-median)/(Q_3 (x)-Q_1 (x))
优点:
1) 使用四分位数进行标准化,只取25%分位数到75%分位数的数据做缩放,在一定程度上减少了异常值对数据分析造成的影响,使得分析结果更加合理.
缺点:
1) 对于多元数据、高维数据,稳健标准化的适用性会很低;
2) 进行数据的添加删除后会导致四分位数变化,可能需要重新定义标准化变量.
适用范围:适用于数据中有较多异常值的情况.
4. L_p归一化normalizer
利用L_p范数对数据进行归一化处理:
xi∗=xi/||xi||px_i^*=x_i/||x_i ||_p
优点:
1) 用L_1可以将分散数据归一化到一个菱形域,用L_2可以将分散数据归一化到一个球形域,L1范数可以导致稀疏解,L2范数导致稠密解;
2) L_p归一化能够使后期数据处理更加方便,并且保证程序运行时收敛加快
3) 在作图时,如果原始数据很难在图中表现,进行归一化后就可以很方便的给出图上的相对位置.
缺点:
1) 需要使用到L_p范数,计算量相对较大.
适用范围:适用于对离散数据的处理.
5. 小数定标标准化
通过移动数据的小数点位置来进行标准化。具体标准化过程中,小数点移动多少位取决于数据系列中的最大绝对值大小:
xi∗=xi/10jx_i^*=x_i/10^j
优点:
1) 操作简单,同时使得归一化之后的数据都落在一个很小的区间内,量级统一,便于数据的分析比较;
2) 小数定标标准化方法适用范围广,受到数据分布影响小,更加实用.
缺点:
1) 最大值与最小值非常容易受异常点影响;
2) 鲁棒性较差,只适合传统精确小数据场景.
适用范围:适用于数据系列分布比较离散,尤其是数据系列遍布多个数量级的情况
6. Logistic标准化
利用Sigmoid函数的特性,将原始数据系列转化为[0,1]之间的数:
xi∗=1/(1+e−xi)x_i^*=1/(1+e^{-x_{i}})
优点:
1) 将数据映射至[0,1]区间内,且利用Sigmoid函数平滑、易于求导的特性,对数据的处理更加高效;
2) 在数据特征相差比较复杂或是相差不是特别大时效果比较好.
缺点:
1) Logistic标准化对数据集的分布有一定的要求,它假定数据取值集中分布在 0值左右;
2) 若数据系列的值分布离散且均远离零点,则根据Sigmoid函数的特性,标准化处理后的值会聚集于0或1附近,造成原始数据的分布及数据间关系被改变;
3) Logistic标准化会改变数据集的原始分布特征.
适用范围:用于数据系列分布相对比较集中地分布于零点两侧的情况.
如有疑问欢迎在评论区讨论!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)