从 高斯 到 正态分布 到 Z分布 到 t分布

正态分布是如何被高斯推导出来的, 我感觉高斯更像是猜出了正态分布。

详见这篇文章:《正态分布的前世今生》 http://songshuhui.net/archives/76501

说一说理解高斯推导过程中的难点:

1. log函数的出现:log函数的出现能把连乘化为求和方便计算,而且log是一对一的函数,不会损失信息量(推导中的log即 ln)。

2. 为了求极大似然, 高斯其实做了一个逆向的假设L(θ;x1,x2,x3....xn)在 θ = 所有x的算数平均 处取到最大值,则此时其导数必定为0。


Z分布的重要依据是正态分布的可加性。由可加性可以推出n个服从N(μ, σ^2)的随机变量,他们的平均值服从另一个正态分布N(μ, (σ/n)^2)。所以Z分布的本质就在总体方差已知的情况下去判断给定样本的均值是否服从总体均值的正态分布,通过均值的正态分布N(μ, (σ/n)^2)来计算 p-value。


明白了Z分布和Z检测后,t检测就不难理解了。上文提到Z检测的必须以总体方差已知为前提,但是如果样本很小而总体方差不知道的情况下就不能获得总体的方差,所以t分布的概率密度函数pdf其实是一个正态分布的pdf乘以卡方分布的pdf,分别表示均值和总体方差,由于卡方分布有自由度,所以t分布也有了自由度的概念。

注:卡方分布表示v个服从同一个正态分布随机变量的平方和的概率分布,v就是自由度,它也可以从方差的角度去作检测。

posted @ 2015-03-19 15:15  爱知菜  阅读(372)  评论(0编辑  收藏  举报