【概率论】联合分布

联合分布

部分公式是自己推导的,有不对的地方请说出来 QAQ

离散随机变量

假设 \(X\)\(Y\) 是定义在同一样本空间上的离散随机变量,它们的联合频率函数是 \(p(x_i, y_i) = P(X=x_i, Y = y_i)\)

\(P_X(x) = \sum_i p(x, y_i)\)​ 为 \(X\)​ 的边际频率函数\(P_Y\) 的定义类似。

连续随机变量

假设 \(X\)​​ 和 \(Y\)​​ 是具有累积分布函数 \(F(x, y)\)​​ 的连续型随机变量,它们的联合密度函数是两变量的分段连续函数。

\(F(x, y) = \int_{-\infty}^x \int_{-\infty}^y f(u, v)dvdu\)

那么在导数定义存在的情况下,\(f(x, y) = \frac{\partial^2}{\partial x \partial y} F(x, y)\)

\((X, Y)\) 落入 \((x, y)\) 的较小邻域概率与 \(f(x, y)\) 成比例:\(P(x\leq X \leq x+dx, y\leq Y \leq y+dy)=f(x, y)dxdy\)

\(X\)边际累积分布函数\(F_X(x) = P(X\leq x) = \int_{-\infty}^x \int_{-\infty}^{+\infty}f(u, y)dydu\)​。

\(X\)​ 的边际密度函数为\(f_X(x) = F_X'(x) = \int_{-\infty}^{+\infty}f(x, y)dy\)​​。

独立随机变量

定义

随机变量 \(X_1,\dots,X_n\)​​​​​ 称为独立的,如果 \(\forall x_i\)​​​​​,它们联合累积分布函数可分解成各自边际累积分布函数之积 \(F(x_1,\dots,x_n) = \prod F(X_i)\)​​​​,该定义对离散型连续型随机变量都是成立的。

对于离散型随机变量,等价的叙述为:分解联合频率函数。

对于连续型随机变量,等价的叙述为:分解联合密度函数。

条件分布

离散情形

如果 \(X\)\(Y\) 是离散随机变量,给定 \(Y=y_j\) 的情况下 \(X=x_i\) 的条件概率是:如果 \(p_Y(y_j)>0\)​,那么

\[P(X=x_i|Y=y_j) = \frac{P(X=x_i, Y=y_j)}{P(Y=y_i)} = \frac{p_{XY}(x_i, y_j)}{p_Y(y_j)} \]

也可以重新表述为:

\[p_{XY}(x, y) = p_{X|Y}(x|y)p_Y(y) \]

连续情形

如果 \(f_Y(y)>0\)​,那么

\[f_{XY}(x, y) = f_{X|Y}(x|y)f_Y(y) \]

否则为 \(0\)

联合分布随机变量函数

首先考虑一些重要的特殊情形:

和与商

对于离散形式,设 \(X,Y\) 为离散型随机变量,具有联合频率函数 \(p(x, y)\),令 \(Z = X+Y\),那么 \(Z\) 的频率函数为:

\[p_Z(z) = \sum_{i=-\infty}^\infty p(x, z-x) \]

这个和称为序列 \(p_X,p_Y\) 的卷积。

对于连续形式,设 \(X,Y\) 为连续型随机变量,我们首先计算 \(Z=X+Y\) 的累积分布函数 \(F_Z\)

\[\begin{aligned} F_Z(z) &= P(x+y\leq z)\\ &= \int_{-\infty}^{+\infty} \int_{-\infty}^{z-x}f(x, y)dydx \\ &{\overset{v=x+y}{=}} \int_{-\infty}^{+\infty} \int_{-\infty}^{z}f(x, v-x)dvdx \\ & = \int_{-\infty}^{z} \int_{-\infty}^{+\infty} f(x, v-x)dxdv \\ \end{aligned} \]

\(\int_{-\infty}^{+\infty} f(x, v-x)dx\) 可以看作是 \(g(v)\)(关于 \(v\) 的函数)。

那么 \(f_Z(z) = \int_{-\infty}^{+\infty} f(x, z-x)dx\)​。

如果 \(X,Y\) 独立,那么 \(f_Z(z) = \int_{-\infty}^{+\infty} f_X(x) f_Y(z-x)dx\)

下考虑两个随机变量的商。

\(Z = Y/X\),推导的方式类似于上述和的推导方式可以得到结果,这里采取另一种方法:利用二重积分的变量替换。

令:

\[\begin{cases} u = y/x\\ v=x \end{cases} \]

那么有:

\(F_Z(z) = \int_{-\infty}^{z} \int_{-\infty}^{+\infty} f(v, uv)|J|dvdu\)

其中 \(J = \frac{\partial (x, y)}{\partial (u, v)}\),这里的 \(|J|\)\(J\) 的绝对值。​

化简即可得到 \(F_Z(z) = \int_{-\infty}^{z} \int_{-\infty}^{+\infty} |x|f(x, xv)dxdv\)​​

因此 \(f_Z(z) = \int_{-\infty}^{+\infty} |x|f(x, xz)dx\)

如果 \(X,Y\) 独立,\(f_Z(z) = \int_{-\infty}^{+\infty} |x|f_X(x) f_Y(xz)dx\)​。

一般情形

利用类似于上面使用雅可比行列式求随机变量的商的方法,我们可以得到多个随机变量函数的一般情形。

假设 \(X,Y\) 是连续型随机变量,通过 \(g_1,g_2\) 投影到 \(U,V\) 上:\(u=g_1(x, y),v=g_2(x, y)\)

同时存在逆变换 \(x=h_1(u, v),y=h_2(u, v)\),那么有

\[f_{UV}(u, v) = f_{XY}(h_1(u,v),h_2(u,v))|J^{-1}(h_1(u, v), h_2(u, v))| \]

不难注意到这个公式和一维公式的形式是非常接近的。

极值与顺序统计量

假设 \(X_1,\dots,X_n\)​ 是具有密度 \(f(x)\)​ 的独立连续型随机变量,对 \(X_i\) 排序,记 \(X_{(1)}<\dots<X_{(n)}\) 为顺序统计量,现求 \(X_{(k)}\) 的密度函数 \(f_{k}(x)\)

用先求分布函数然后微分的方法比较复杂。

因为分布函数为 \(F_k(x) = \sum_{i=k}^n C_n^i[F(x)]^i[1-F(x)]^{n-i}\)

然后接下来我不会化了

注意到事件(已排列好) \(x\leq X_{(k)} \leq x+dx\)​ 发生的概率为:

\[[F(x)]^{k-1}[1-F(x)]^{n-k}f(x)dx \]

因此密度函数为:

\[\begin{aligned} f_k(x) &= C_n^{k-1}C_{n-(k-1)}^1[F(x)]^{k-1}[1-F(x)]^{n-k}f(x)\\ &= \frac{n!}{(k-1)!(n-k)!}[F(x)]^{k-1}[1-F(x)]^{n-k}f(x) \end{aligned} \]

至于极值(极大值、极小值)的密度函数便分别为上式 \(k=n,1\)​ 的结果。

posted @ 2021-11-10 11:34  HinanawiTenshi  阅读(547)  评论(0编辑  收藏  举报