置信区间的理解
链接:https://www.zhihu.com/question/26419030/answer/1662491473
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
首先我们要清楚我们面对的问题是什么:我们有一些data(X1,X2....Xn),n是样本的个数,n是固定的,这些data来自某一种分布,比方说 , 已知
,不知道
是什么,但这个
是客观存在的某个常数,就是我们感兴趣的参数。
我们希望通过手上有的data来猜测这个是什么。要注意的是在你拿到这些data之前你也不知道你的X1, X2...Xn 会取什么值,你只知道他们服从
。
假设你现在拿到了一组data,它们是(1,2,3,4,5),(所以 n = 5 )那这时候你会猜是什么呢?
##点估计
你可以猜 是它们的平均值
,也有的人觉得后面来的两个data很不靠谱,就猜前三个数的平均值,也有的人很牛逼,data都不看,闭眼猜
是0,这些都是估计量,叫estimator。(只不过肯定有好有坏吧?而如何衡量这种好坏?一般来说就是选一个loss function然后通过比较loss function来决定。这里我不展开了)就拿平均值这个estimator来说吧,因为在很多标准下,它还不错。所以,对每一组随机生成出来的data,我都用这组data的平均值
来猜测
。
estimator: (注意哦这个
也是个随机变量哦!每一次拿到不同的data,都有不同的平均值,一份data就只有一个估计)
问题来了,这样会不会有点太草率?我就给出一个数字,比如上面的例子,平均值是3,我就猜是3,这样是不是太草率了?
如果我要是猜可能的取值范围是在[2,4] 是否更合理一些?
所以人们想出来了区间估计的概念
##区间估计
严谨地给出定义来说,confidence interval (CI) 是confidence region的一个特例,confidence region 就是一堆堆随机变量 (RV)的集合,CI就是当这个集合是一个区间形式的特例,[L(X), U(X)] 这时候的CI就由两个随机变量所决定。
注意,L(X) and U(X) 都是RV,和上面的单个的点估计里的一样都是随机变量。
但这还不完整,CI还有一个概念就是这个 (就是题目中的95% 的概念)。这个
的意义其实就在于,你既然要给出一个区间,那要给出一个多宽的区间呢?你不猜3,想猜[2,4]那能不能猜[1, 5]呢?可以!这个
的作用就是在于衡量你这个区间的长度的。
所以我们说CI的时候,是不能离开来说的。先比方说假设人为选择了
=0.05,那么我们就有了(1-
)= 95%CI的概念了。
而所谓的*参数的95%的CI*准确的数学定义是,我感兴趣的参数 (fixed constant)被这个CI(记住!是由两个随机变量所决定!)所cover的概率是95%
(*)
你看,点估计就是给一个estimator(比如 ,which is also a RV,根据你的data来取值的) 而区间估计也是给RV,不过给了两个,然后围成一个interval而已。
记住啊!是确确定定的,fixed的,上帝决定的!你的办法是想出L(X), U(X)使得上面的式子成立。期中L(X), U(X)都是随机变量,是X的function。
比如你可以猜L(X) = - c1, U(X) =
+ c2. 其中的c1,c2是某两个常数你要选好的,并且满足(*)
比如利用~
这个事实,我们有这个事实:
变一下式子你就发现:
yeah!那我们不就找到了L(X) 和U(X) 了嘛!!
也就是说你不简简单单猜 =
, 你猜的是
回到上面那个例子,你拿到的那组data的时候,你不想暴力的就给一个点估计,猜测 =
= 3,
你给出了一个区间,你猜测 (假设
=1)
okay,回顾上面的过程,你就会发现,你有一组data(1,2,3,4,5)的时候,你就可以给出一个相应的CI,和之前的点估计一个道理,他们本是随机变量,一份data相当于一个realization,一份data就只能得到一次估计值。
而当你拿到N组这样的data的时候,你就可以construct相应的N个CI。
而你再回过头看看CI的定义的时候,你就知道,那个95%的含义是什么了。就是说在100次你拿到的data里,你construct的100个CI里,有大约95%的概率也就是大约有95个会cover这个真实的
而当你只有一组数据的时候,你就只construct了一个CI,这个时候,这个CI要么cover 要么不cover!(再说一遍!
是固定好的,上帝知道的常数!)
那种什么“这个CI有95%的概率cover这个theta的说法”都是错误的!这个CI要么cover要么不cover!95%指的是你建立这个CI的*过程*中或者说在不同组data的realization下有95%概率cover
另外,其实只要满足了(*)的L(X), U(X) 就是95% CI,所以,L(X), U(X)当然不是唯一的,相应的你也可以找别的c1,c2,只要满足(*)就行。只不过人们通常选择1.96那个formula