z-score、方差、相关系数
z-score值:
(某值-mean)/标准差=z-score
zi=(xi-均值)/s,zi又称为标准分数。这是统计中的标准化公式。它给出了一组数据中各个数据的相对位置。
该公式的意义:
一个数减去均值,可认为是:该数偏离均值的程度。
因为,标准差可以认为是一组数的平均离散程度。所以,减去均值后再除以sd,可认为是:(该数偏离平均值的程度)是(整组数平均偏离程度)的几倍。
所以,针对每一个数都可以计算它的z-score值。
例子:
一组数: X=(25,28,31,34,37,40,43) X的平均数:34 X的标准差:(81+36+9+9+36+81)/7 = 37, 37的平方根:6。所以标准差=6
减平均数:-9,-6,-3,0,3,6,9
除以标准差:Y=(-1.5, -1,-0.5, 0, 0.5, 1, 1.5) Y的平均数:0 Y的标准差:(2.25+1+0.25+0.25+1+2.25)/7=1,1的平方根:1。所以标准差=1
即:将上面的一组数,转换成了下面的一组正负值的数。
由此例子,可以看出:z-score(即Y值)具有平均数是0,标准差是1的特性。符合标准正态分布。
z-score只是对原来的数据进行线性变换,并没有改变某个数据在该组数据中的位置,也没有改变这组数据的分布形状。它只是将该组数据变为平均数为0,标准差为1的一组数。
这样,就可以利用正态分布的一些特性。(此处还不太懂,后续补充吧)
方差:
与均值之差的平方的和的平均数。
标准差的计算公式:
相关系数:
衡量两组数据之间的关系 。比如:X=(x1,x2,...),Y=(y1,y2,...)
反应的是变量之间的线性关系和相关性的方向(正相关、负相关)。比如,0表示X与Y之间不相关;1表示X与Y正相关,X变大,Y也变大;-1表示X与Y负相关,X变小,Y也变小。
有3种定量相关性association的方法:OR、RR(risk ratio)、ARR(abolute risk reduction)