Financial - zValue
链接:https://www.zhihu.com/question/20107280/answer/1741114532
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
通俗解释z-value,即 z-score 是对某一原始分值进行转换,变成的一个标准分值,该标准分值可使得原来无法比较的数值变得可比。
一个简单的例子,中国人小王身高 1.75 m,美国人 James 身高 1.85 m,日本人大郎身高1.75 m,排除国籍导致的差异,请问小王、James、大郎三个人谁更高?
直接从数值上比,当然是 James 最高。但是这里要求排除国籍导致的差异,什么意思?就是说,日本人可能全国的人都相对矮一些(不严谨,仅做例子),那么日本的 1.7 m 可能相当于中国的 1.75 m 和美国的 1.85 m。所以不能直接比数字,而是要比每个人在各自国家国民身高背景下的一个“标准身高”。这里就可以引入 z-score了。
另一个简单的例子,小红英语考了 90 分,语文考了 60 分,请问小红英语和语文哪个考的好? 同样的情况,如果直接比分数,当然是英语好。但是一种显然易见的可能情况是,两门课的难度不一样,也许语文更难,大家都不及格,只有小红及格了;而英语很简单大家都是100分,只有小红90分。这样看来,好像小红的语文要考的更好一些。这里我们用 z-score 可以直观的进行比较。
z-score 的计算定义如下:
z =(x-μ)/σ
这里的 x 为原始分值,z 为经过转换后的 z-score,μ 为总体样本空间的分值均值,σ 则为总体样本空间的标准差。
需要注意的是,上文所说的总体样本空间,即英文中的 population,指的是当前抽样样本所在分布的空间内的所有样本。一般我们实际使用时,手头拿到的数据仅能代表抽样的部分样本,无法代表整个样本空间。所幸,我们可以使用当前抽样样本的均值和标准差来估计总体样本空间的情况。
在之前关于身高的例子中,我们可以将每个人的身高减去其祖国的平均身高,再除以对应国家的身高标准差,得到各自的身高 “标准分值”,然后再去比较。同样,语文成绩和英语成绩也是一样,各自减去全班或全校的平均分数,再除以对应的标准差,即可比较。如语文全班平均成绩 40 分,标准差为 10,英语全班成绩 98 分,标准差为 5 。那么小红的语文成绩 “标准分值” 就是 (60 – 40)/10 = 2 ,而英语成绩“标准分值”就是 (90-98)/5 = -1.6。这样一比,英语成绩是远低于语文成绩的,可见小红的语文还是学的相当好的。
在上面的例子中,转换后的 z-score 出现了负数,通过前面的公式定义,我们可以很容易的理解。如果原始分值低于样本集合中的平均分值,那么转换后的 z-score 则为负数,反正为正数。
需要注意的是,通过 z-score 转变后的分值,并没有被正态化。也就是说,原来是正态分布的,转为 z-score 之后仍为正太分布;原来不是正态分布的,转化为 z-score 之后并不会转换为正态分布。
最后,要防止 z-score 被误用。原始分值经过转变后的 z-score,是去除了之前数据所带有的观察信息的。对于拿 z-score 去做一些观察结果的判断,我们需要格外谨慎的。比如我们应该用 BMI 来衡量肥胖,而非某个阈值的 z-score,尤其在我们的抽样空间不够大、无法代表总体的情况下。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
2021-01-31 MySQL - MySQL索引实现原理:数据结构 + 算法原理
2021-01-31 MySQL - MySQL索引背后的数据结构及算法原理(深度好文)
2021-01-31 SpringCloud - Feign 动态代理拼接URL地址