系统评价——数据指标的规范化处理(一)

多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行规范化处理。目前数据规范化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的规范化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据规范化方法的选择上,还没有通用的法则可以遵循。

!!!数据规范化前要注意数据的属性(极大型、极小型、中间型)以及数据发展变化规律(正指标、负指标)。

一、数据指标为什么要规范化?

数据指标的规划化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序。

  • 数据的量纲不同,数量级差别很大
    经过规范化处理后,原始数据转化为无量纲化指标测评值,各指标值处于同一数量级别,可进行综合测评分析。如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。
  • 避免数值问题:太大的数会引发数值问题。
  • 平衡各特征的贡献
    一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。
  • 一些模型求解的需要:加快了梯度下降求最优解的速度
    在使用梯度下降的方法求解最优化问题时,规范化后可以加快梯度下降的求解速度,即提升模型的收敛速度。

二、指标预处理——转化为正指标

选取合理的评价指标是综合评价问题的第一步,要考虑四个准则——代表性、确定性、独立性、区别能力。
代表性:各层次指标能最好地表达所代表的层次;
确定性:指标值要确定、可量化,高低在评价中有确切的含义;
独立性 :选定的指标要互相独立,不能相互替代;
区别能力/灵敏性:指标有一定的波动范围。

2.1 指标的属性分类

在我们选取的众多评价指标中,有些指标数值越大越好(“极大型”指标),有些指标越小越好(“极小型”指标),有些指标是在一定范围内(“区间型”指标)。

极大型指标:总是期望指标的取值越大越好;
极小型指标:总是期望指标的取值越小越好;
中间型指标:总是期望指标的取值既不要太大,也不要太小为好,即取适当的中间值为最好;
区间型指标:总是期望指标的取值最好是落在某一个确定的区间内为最好。

指标:年龄

指标名称 指标特点 例子
极大型(效益型)指标 越大(多)越好 成绩、GDP增速、企业利润
极小型(成本型)指标 越小(少)越好 费用、坏品率、污染程度
中间型指标 越接近某个值越好 水质量评估时的PH值
区间型指标 落在某个区间最好 体温、水中植物性营养物量

例如我们在期末进行综合测评时,评价指标中有学习成绩、缺课率等,学习成绩这项指标是取值越大越好,是极大型指标,学习成绩越高,综合测评得分相应越高;缺课率这项指标是越小越好,是极小型指标,缺课率越高,综合测评得分越低。因此,我们需要对指标进行一致化处理,将所有的指标转化为极大型指标或者极小型指标。

2.2 指标的转化公式

极大型指标(效益类指标),也就是正指标,不做处理
极小型指标(成本类指标):

\[\overline{x}_i=max\{x_i\} -x_i \quad 或 \quad \frac{1}{x_i} \]

中间型指标:
中间型指标的特点:指标的值既不要太大也不要太小,取某个特定的值最好(例如:评估水质量用到的PH值)
\(\{ x_i \}\) 是 一组中间型指标序列,且最佳的数值为\(x_{best}\) , 那么正向化的公式如下:

\[\overline{x}_i=1- \frac{\left| x_i-x_{best} \right|}{max∣x_i​−x_{best} ​∣} \]

区间型指标:

\(\{x_i​\}\)是一组区间型指标序列,且最佳的区间为\([a,b]\),那么正向化的公式如下:

\[M=max \{ a-min\{ x_i \},max\{ x_i \} -b \} \]

\[\overline{x}_i=\begin{cases} 1-\frac{a-x_i}{M},x_i<a\\ 1 ,a\leqslant x_i\leqslant b\\ 1-\frac{x_i-b}{M},x_i>b\\ \end{cases} \]

三、数据规范化方法

数据的规范化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到\([0,1]\)区间上,常见的数据归一化的方法有:min-max标准化(Min-max normalization),z-score标准化(zero-mena normalization,此方法最为常用),模糊量化法。

3.1 min-max规范化(Min-maxnormalization)

也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

对序列\(x_1,x_2,...,x_n\)进行变换

\[y_i=\frac{x_i-\underset{1\le i \le n}{min}\{x_i\}}{\underset{1\le i \le n}{max}\{x_i\}-\underset{1\le i \le n}{min}\{x_i\}} \]

则新序列\(y_1,y_2,...,y_n \in [0,1]\)且无量纲,不同类型的数据加权时都要进行规范化处理。

离差标准化

  • 其中max为样本数据的最大值,min为样本数据的最小值。
  • 这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

3.2 z-score规范化(zero-meannormalization)

并不是所有数据规范化的结果都映射到\([0,1]\)区间上,其中最常见的标准化方法就是Z标准化,也叫标准差标准化。通过规范化,令数据的平均值为 0,标准化为1的标准化方法,在经济社会、传播学研究中使用普遍,公式如下:

\[\hat x_i = \frac{x_i - \mu}{\sigma}, \hspace{1em}x \in R \]

其中\(\mu\)为样本均值, \(\sigma\)为样本标准差。

优点:

  • 保留数据真实距离,维持标准化前数据分布,缩放均为等比例缩放。
  • 标准化后数据的平均值为0,标准化为1。
  • 对极值不敏感。
    缺点:
  • 标准化后数据不在固定范围内,如用作指标体系计算还需要进一步标准化。
  • 样本标准化后值不稳定,受样本平均值和标准差影响;当添加新样本时,旧样本的标准化值一定发生变化。

3.3 Sigmoid 函数规范化

如果数据呈现中间集中的分布,同时需要将区分中心部分的差距,可以使用 Sigmod 函数进行标准化,公式如下:

\[\hat x_i = \frac{1}{1+e^{-(x_i - a) \times b}}, \hspace{1em} x \in R,\hat x_i∈(0,1) \]

其中系数\(a\)为需要区分部分中心的值,系数\(b\)为需要区分的程度。

优点:

  • 扭曲了原数据,扩大(加强)了某个中心附近的样本值之间的差距,缩小(减弱)了距离该中心较远的样本值之间的差距。
  • 对极小值和极大值均完全不敏感。
  • 样本标准化后的值稳定,不受样本最大值和最小值的影响。
    缺点:
  • 对距离中心较远的样本值之间的差距 非常 不敏感。

3.4 归一化处理

\[x_{new}=\frac{x}{x_{1}+x_{2}+...+x_{n}} \]

对正数进行变换,使结果落到\([0,1]\)区间,其将数值的绝对值变成相对值关系

3.5 模数单位化

\[x_{new}=\frac{x}{||x||} \]

将每个样本的特征向量除以其长度,即对样本特征向量的长度进行归一化,长度的度量常使用的是L2 norm(欧氏距离),有时也会采用L1 norm。

四、几种规范化方法的比较

方法 公式 优点 缺点 适用场景
Min-Max 规范化 $$y_i = \frac{x_i - \min{x}}{\max{x} - \min{x}}$$ - 简单易懂
- 保持原始数据关系
- 对异常值敏感
- 新数据需重新计算最大值和最小值
数据范围固定且稳定的情况
Z-Score 规范化 $$\hat{x}_i = \frac{x_i - \mu}{\sigma}$$ - 对异常值不敏感
- 保持数据分布(均值为0,标准差为1)
- 数据范围不固定
- 新样本会影响所有数据的标准化值
需要数据中心化和标准化的场景
Sigmoid 函数规范化 $$\hat{x}_i = \frac{1}{1 + e^{-(x_i - a) \times b}}$$ - 强化中心区间差距
- 对极端值不敏感
- 对远离中心的数据差距不敏感
- 参数选择困难
数据中有明确中心且需强化的情况
归一化处理 $$x_{\text{new}} = \frac{x}{\sum_{i=1}^n x_i}$$ - 将数据转化为相对值
- 简单直观
- 对数据分布有要求 数据总和具有实际意义的场景
模数单位化 $$x_{new} = \frac{x}{||x||}$$ - 保持数据方向性
- 对数据范围不敏感
对范数计算依赖 高维空间数据处理,如文本分析

总的来说,规范化/归一化/标准化的目的是为了获得某种“无关性”——偏置无关、尺度无关、长度无关……当规范化/归一化/标准化方法背后的物理意义和几何含义与当前问题的需要相契合时,其对解决该问题就有正向作用,反之,就会起反作用。所以,“何时选择何种方法”取决于待解决的问题,即problem-dependent。

总结

评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。评价往往是由多个评价指标构成的,而这些评价指标往往具有不同的属性、数量级和单位,这导致我们无法对不同的指标进行比较、加权、求和等种种后续操作。假设各个指标之间的水平相差很大,此时直接使用原始指标进行分析时,数值较大的指标,在评价模型中的绝对作用就会显得较为突出和重要,而数值较小的指标,其作用则可能就会显得微不足道。因此,为了消除不同评价指标之间存在的差异,统一比较的标准,就需要对数据进行标准化处理,消除不同指标之间因属性不同而带来的影响,从而使结果更具有可比性。

参考文献

几种常用数据标准化方法
指标体系中的标准化方法
数据处理——常见标准化方法总结
数据规范化(normalization)
数学建模:Topsis法(优劣解距离法)

posted @ 2023-03-10 21:45  郝hai  阅读(1360)  评论(0编辑  收藏  举报