权重系数确定问题

  根据各个指标获得综合指标时,由于各个指标对综合指标的贡献度不同,相应权重也应不同,对综合指标贡献大的指标更重要,应该分配更大的权重。如何确定各个指标的权重,这里介绍两种方法:熵值法和pca确定权重。也可用于特征工程中确定特征权重。

一、熵值法

1、熵的概念  

  信息论中,熵是对随机变量不确定性的度量。熵值越小,无序程度越小,不确定性越小,信息量越大;熵值越大,无序程度越大,不确定性越大,信息量越小。可用熵值计算特征的离散程度,离散程度大的特征对综合值影响更大。

  熵值大,信息量小,权重应该小;熵值小,信息量大,权重应该大。

熵的计算公式

2、熵值法确定权重

指标1 指标2 …… 指标m
... ... ... ...

确定指标1到指标m的权重

指标值不同取值的出现次数相差大,熵小,信息量大,权重应大;指标值不同取值的出现次数相差小,熵大,信息量小,权重应小。

当m个指标值完全相同时,熵最大,可移除该指标。

熵值法确定权重的步骤:

1、归一化

对指标值进行归一化,归一化时,应考虑指标值的影响

当指标值越大越好时,可使用公式

x=(x-xmin)/(xmax-xmin)

当指标值越小越好时,可使用公式

x=(xmax-x)/(xmax-xmin)

2、定义熵

m个指标,n个被评价对象

第i个指标

3、定义熵权

 二、pca确定权重

 pca是一种无监督的降维方法,pca通过线性变换将原来可能相关的n个向量变换成线性无关的k维向量。用pca确定权重系数需要知道三个条件:

  • 指标在各主成分线性组合中的系数
  • 主成分的方差贡献率
  • 指标权重的归一化

ex:n个主成分,m个指标

w表示各主成分的系数,wij表示第一个主成分第j个指标的系数,fi表示第一个主成分的方差贡献率

则第q个指标的权重为

归一化

posted @ 2019-06-30 21:41  moonyue  阅读(9730)  评论(0编辑  收藏  举报