次序统计量的概率密度函数
首先给出次序统计量的概念:
设\(X_1,...,X_n\)是从总体中抽样得到的样本,将其按从小到大的顺序进行排列,得到一组有序的样本值\(X_{(1)},...,X_{(n)}\),其中\(X_{(1)} \leq X_{(2)} \leq ... \leq X_{(n)}\),则\(X_{(k)}\)为其中单个次序统计量。以下采用两种方法推导\(X_{(k)}\)的概率密度函数。
(1)基于分布函数的推导思路
根据分布函数的定义有\(F_{X_{(k)}}(x)=P(X_{(k)} \leq x)\),即次序统计量\(X_{(k)}\)的分布函数为事件\(X_{(k)}\)小于等于\(x\)的概率,由于\([X_{(1)},...,X_{(k)},...,X_{(n)}]\)是一个有序样本序列,因此,下列子事件均能引起事件\(X_{(k)} \leq x\)的发生:
有\(k\)个\(X_{(i)}\)的值不大于\(x\); 有\(k+1\)个\(X_{(i)}\)的值不大于\(x\);...... 有\(n\)个\(X_{(i)}\)的值不大于\(x\)
所以:
\[\begin{equation}
\begin{aligned}
F_{X_{(k)}}(x)&=P(X_{(k)} \leq x)=\sum_{i=k}^n{[有i个X_{(i)}不大于x]}=\sum_{i=k}^n{\begin{pmatrix} n \\ i \end{pmatrix} [F(x)]^i [1-F(x)]^{n-i}}
\end{aligned}
\end{equation}\tag{1}
\]
在上面的表达式中,\(F(x)\)表示总体样本的分布函数,则次序统计量\(X_{(k)}\)的概率密度函数可以通过对(1)进行求导得到,在化简过程中用到了以下等式关系:
\[\sum_{i=k}^n{\begin{pmatrix} n \\ i \end{pmatrix} P^i (1-P)^{n-i}}=k \begin{pmatrix} n \\ k \end{pmatrix} \int_0^P{t^{k-1}(1-t)^{n-k}dt}\tag{2}
\]
现在来证明(2)式,将等式左右两边对\(P\)求导,对右边求导得到
\[\frac{d[k \begin{pmatrix} n \\ k \end{pmatrix} \int_0^P{t^{k-1}(1-t)^{n-k}dt}]}{dP}=k \begin{pmatrix} n \\ k \end{pmatrix} P^{k-1}(1-P)^{n-k}\tag{3}
\]
对左边等式求导得到:
\[\begin{equation}
\begin{aligned}
&\frac{d[\sum_{i=k}^n{\begin{pmatrix} n \\ i \end{pmatrix} P^i (1-P)^{n-i}}]}{dP}=\sum_{i=k}^n{\begin{pmatrix} n \\ i \end{pmatrix} [i P^{i-1}(1-P)^{n-i}-(n-i)P^i (1-P)^{n-i-1}]}\\
&=k \begin{pmatrix} n \\ k \end{pmatrix} P^{k-1}(1-P)^{n-k}-(n-k)\begin{pmatrix} n \\ k \end{pmatrix} P^k (1-P)^{n-k-1}\\
&+(k+1)\begin{pmatrix} n \\ k+1 \end{pmatrix} P^k (1-P)^{n-k-1}-(n-k-1)\begin{pmatrix} n \\ k+1 \end{pmatrix}P^{k+1}(1-P)^{n-k-2}+...\\
&=\frac{n!}{(k-1)!(n-k)!}P^{k-1}(1-P)^{n-k}{-\frac{n!}{k!(n-k-1)!}P^k (1-P)^{n-k-1}}\\
&{+\frac{n!}{k!(n-k-1)!}P^k(1-P)^{n-k-1}}-\frac{n!}{(k+1)!(n-k-2)!}P^{k+1}(1-P)^{n-k-2}+...\\
&=\frac{n!}{(k-1)!(n-k)!}P^{k-1}(1-P)^{n-k}=k\begin{pmatrix} n \\ k \end{pmatrix} P^{k-1}(1-P)^{n-k}
\end{aligned}
\end{equation}\tag{4}
\]
从(4)可以看出展开式前一项的后半部分和后一项的前半部分可以相消,所以最终仅保留第一项的前半部分和最后一项的后半部分,显然得到(2)中左右两个式子对\(P\)的导数是相等的。当然,导数相等并不能证明原函数就是相等的(原函数加减常数的导数仍然保持相等),只需要取一个\(P\)值代进去看左右两端是否相等即可。显然可以证明(2)是成立的。
利用(2)可以得到:
\[F_{X_{(k)}}(x)=k\begin{pmatrix} n \\ k \end{pmatrix} \int_0^{F(x)}{t^{k-1}(1-t)^{n-k}dt}\tag{5}
\]
所以
\[f_{X_{(k)}}(x)=k\begin{pmatrix} n \\ k \end{pmatrix} [F(x)]^{k-1}[1-F(x)]^{n-k}f(x)\tag{6}
\]
(2)基于概率密度元的推导方法
在推导之前我们先给出概率密度函数的一种计算方法
\[f(x)=\lim_{\Delta x \to 0}{\frac{P(x< X \leq x+\Delta x)}{\Delta x}}=\lim_{\Delta x \to 0}{\frac{F(x+\Delta x)-F(x)}{\Delta x}}\tag{7}
\]
由上面的定义可知
\[f_{X_{(k)}}(x)=\lim_{\Delta x \to 0}{\frac{P(x < X_{(k)} \leq x+\Delta x)}{\Delta x}}\tag{8}
\]
事件\(x < X_{(k)} \leq x+\Delta x\),等价于:有\(k-1\)个样本值小于\(x\),有一个样本值在\(x\)和\(x+\Delta x\)之间,有\(n-k\)个样本值大于\(x+\Delta x\)。上述三个子事件对应的情况数及概率分别可以表示为:\(\begin{pmatrix} n \\ k-1 \end{pmatrix}[F(x)]^{k-1},\begin{pmatrix} n-k+1 \\ 1 \end{pmatrix} [F(x+\Delta x)-F(x)],\begin{pmatrix} n-k \\ n-k \end{pmatrix}[1-F(x+\Delta x)]^{n-k}\),所以
\[P(x < X_{(k)} \leq x+\Delta x)=\begin{pmatrix} n \\ k-1 \end{pmatrix} \begin{pmatrix} n-k+1 \\ 1 \end{pmatrix} \begin{pmatrix} n-k \\ n-k \end{pmatrix} [F(x)]^{k-1} [F(x+\Delta x)-F(x)][1-F(x+\Delta x)]^{n-k}\tag{9}
\]
所以
\[\begin{equation}
\begin{aligned}
f_{X_{(k)}}(x)&=\begin{pmatrix} n \\ k-1 \end{pmatrix} \begin{pmatrix} n-k+1 \\ 1 \end{pmatrix} \begin{pmatrix} n-k \\ n-k \end{pmatrix}[F(x)]^{k-1} \lim_{\Delta x \to 0}{\frac{[F(x+\Delta x)-F(x)][1-F(x+\Delta x)]^{n-k}}{\Delta x}}\\
&=k\begin{pmatrix} n \\ k \end{pmatrix} [F(x)]^{k-1} [1-F(x)]^{n-k} f(x)
\end{aligned}
\end{equation}\tag{10}
\]