z-score Normalization

  Z-score 表示一个值是高于或低于平均值多少个标准差( a score that indicates how many standard deviations a value is above or below the mean).

比如用于RNA-seq 的normalisation.  对每个基因的原始表达量减去平均基因丰度,然后除以所有样本测量的标准差SD(standard deviation) 。这个与TPMs(Transcripts per million):计数通过特征长度归一化。

 z-score主要目的将不同量级的数据统一转化为同一量级,统一用计算出的Z-score衡量,保证数据之间的可比性。计算之前需要:

  1) 总体数据的均值(μ)

 2) 总体数据的标准差(σ)

 3)  个体的观测值(x)  

计算(x-μ)/σ,实现将不同的数据转换到相同的量级上,值没有量纲,实现标准化。z score告诉我们这个值距离平均值相差几个标准差。

z-score = 1 意味着样本值超过均值 1 个标准差;
z-score = 2 意味着样本值超过均值 2 个标准差;
z-score = -1.8 意味着样本值低于均值 1.8 个标准差。
z-score告诉我们样本值在正态分布曲线中所处的位置。z-score = 0告诉我们该样本正好位于均值处,z-score = 3 则告诉我们样本值远高于均值

参考: https://blog.csdn.net/qq_39482438/article/details/110873346

 

 

 

 

 

 

 

 

Normalization: 

 

  standard deviation(SD): 衡量一组变量的离散程度。低标准差表示变量很接近mean平均值,然而高的的标准差表示值离散到更广的范围, 总体标准差(population standard deviation)用lower case Greek letter σ (sigma)表示,样本标准差用Latin letter s表示。 随机变量、样本、统计分布、数据集、概率分布的标准差是方差的平方根。相比方差,它与数据样本的单位相同。

 

  总体或样本的standard deviation 与统计量的standard error(如样本均值 sample mean) 不同,但相关。样本均值的standard error 是从总体中抽取无限量的重复样本并计算每个样本的standard deviation,来找到均值集的标准偏差(standard deviation). 均值的standard error 等于总体standard deviation除以样本量的方根,是用样本standard deviation除以样本量的平方根来估计。

在科学研究中,会同时说明数据的standard deviation作为summary statistic,以及估计的standard error作为研究中潜在错误的衡量方法。按照惯例,距离零期望(null expectation)两个standard errors以外的效应才被认为是显著,

 例子

 

posted on   BioinformaticsMaster  阅读(1752)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示