相关系数

皮尔森相关系数

概述

皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ，是一种线性相关系数，是最常用的一种相关系数。记为r，用来反映两个变量X和Y的线性相关程度，r值介于-1到1之间，绝对值越大表明相关性越强。

定义

总体相关系数ρ定义为两个变量X、Y之间的协方差和两者标准差乘积的比值，如下：

\[{\rho _{X,Y}} = \frac{{{\mathop{\rm cov}} \left( {X,Y} \right)}}{{{\sigma _X}{\sigma _Y}}} = \frac{{E\left[ {\left( {X - {\mu _X}} \right)\left( {Y - {\mu _Y}} \right)} \right]}}{{{\sigma _X}{\sigma _Y}}} = \frac{{E\left( {XY} \right) - E\left( X \right)E\left( Y \right)}}{{\sqrt {E\left( {{X^2}} \right) - {E^2}\left( X \right)} \sqrt {E\left( {{Y^2}} \right) - {E^2}\left( Y \right)} }}\]

物理意义

皮尔森相关系数反映了两个变量的线性相关性的强弱程度，r的绝对值越大说明相关性越强。

当r>0时，表明两个变量正相关，即一个变量值越大则另一个变量值也会越大；
当r<0时，表明两个变量负相关，即一个变量值越大则另一个变量值反而会越小；
当r=0时，表明两个变量不是线性相关的（注意只是非线性相关），但是可能存在其他方式的相关性（比如曲线方式）；
当r=1和-1时，意味着两个变量X和Y可以很好的由直线方程来描述，所有样本点都很好的落在一条直线上。

机器学习中的应用

pearson是用来反应俩变量之间相似程度的统计量，在机器学习中可以用来计算特征与类别间的相似度，即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。

参考资料

https://blog.csdn.net/chao2016/article/details/80917579

https://www.cnblogs.com/renpfly/p/9555959.html

posted @ 2019-08-06 10:27 xd_xumaomao 阅读(2221) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

xd_xumaomao

相关系数

皮尔森相关系数

概述

定义

物理意义

机器学习中的应用

参考资料

公告