连续随机变量

连续分布的随机变量\(\newcommand{\F}{\mathcal{F}}\newcommand{\B}{\mathcal{B}}\newcommand{\Var}{\text{Var}}\newcommand{\E}{\mathbb{E}}\)

一个随机变量是连续分布的当且仅当它是由一个连续的累积分布函数给出的。我们已经看到,如果随机变量是离散分布的那么累积分布函数必然会在离散的点上出现间断。因此如果累积分布函数连续,随机变量就不是离散分布的。

而连续分布这样的定义是很广的,我们知道由许多性质奇特的连续函数(例如处处连续却处处不可导的函数),这些函数并不在我们的考虑范围内。所以我们特别的定义一类“绝对连续分布”的随机变量,它的累积分布函数\(F(x)\)满足,只要存在一个非负函数\(f\)使得\(\forall x \in \R\)\(F(x)=\displaystyle\int_{-\infty}^{x}f(u)du\)\(f(x)\)就称为这个随机变量的概率密度函数(Probability Density Function, PDF)。\(f(x)\)可以理解为\(F'(x)\)

连续随机变量的期望

我们定义过离散随机变量的期望:\(\E[X]=\sum\limits_{i \geq 1}x_iP(\Lambda_i)\),其中要求\(\sum\limits_{i \geq 1}|x_i|P(\Lambda_i)<\infty\)。这个要求称为“可积”。要定义连续随机变量的期望,就是要把这个定义推广到随机变量取值不可数的情况。严格地,对于任意一个随机变量的取值\(X(\omega)\),我们可以用一列上近似\(\overline{X_n}\)\(\underline{X_n}\)来以二进制小数的形式一位位逼近\(X(w)\),满足\(\underline{X_n}<X(w) \leq \overline{X_n}\)。那么当\(n\)固定时,\(\overline{X_n}\)\(\underline{X_n}\)都是离散的随机变量。当\(n\to\infty\)时,它们的极限都是\(X(w)\),所以连续的随机变量就定义为\(\overline{X_n}\)\(\underline{X_n}\)的期望的极限(它们必然相等)。即\(\E[X]=\lim\limits_{n \to \infty}\E[\underline{X_n}]=\lim\limits_{n \to \infty}\E[\overline{X_n}]\)。并且我们发现,对于任意的\(\overline{X_k}\)\(\underline{X_k}\),它的可积性一定与\(\overline{X_0}\)是相同的,因为我们的近似保证了对变量取值的“修正”不会超过1,而\(\sum P(\Lambda _i) =1\)收敛,因此所有的近似变量的可积性都是等价的。同时,由于连续函数的期望定义只是对离散期望取极限,因此离散期望的性质都可以很容易地推广到连续情形。

上面所描述的这种定义连续随机变量期望的方式实际上就是勒贝格积分。对于黎曼可积的函数,勒贝格积分是与黎曼积分相等的。但许多黎曼不可积的函数却是勒贝克可积的,比如Dirichlet函数黎曼不可积,而勒贝格积分为0。黎曼积分是竖着切分,每个微元取函数值;而就像我们刚才看到的,勒贝格积分是横着切分的——对函数值做近似,取出每一特定函数值对应的自变量原像的测度做累加。用勒贝格积分来表示期望,记为: \(\E[X]=\displaystyle\int_{\Omega}X(\omega)P(\mathrm d\omega)\),简记为\(\displaystyle\int_\Omega X\mathrm dP\)。其中\(P\)是概率空间的概率测度。

对于期望(积分)而言,我们不关心零测集上随机变量的表现。当两个随机变量只在一个零测集上取值不同时,我们称这两个随机变量almost surely(a.s.,几乎处处)相等。两个a.s.相等的随机变量期望一定相等。

根据定义我们看到,随机变量期望的是基于概率空间的。而更多的时候我们其实并不清楚概率空间,而只知道随机变量的分布。而在离散期望中我们就已经发现,随机变量的期望其实有两种写法。一种是枚举随机变量的取值,给每个取值乘上取这个值的样本的测度,这在连续情形对应的就是上面这种勒贝格积分的定义方法。另一种写法是枚举每个样本点,用样本点的概率测度乘上随机变量的取值累加,这种写法其实对应着黎曼积分的定义。但在连续情形下我们是不能讨论“某个样本点的测度”的,换言之样本的mass function是不存在的。而在连续情形,我们已经用density代替了mass,因此我们期待可以用\(f(x)dx\)来替换mass,得到黎曼积分下\(\E[X]=\displaystyle\int_{-\infty}^{+\infty} xf(x)dx\)。当density \(f\)存在时,我们可以验证这确实是成立的(证明略)。更一般地,当\(f\)不存在时,\(\E[X]=\displaystyle\int_{-\infty}^{+\infty} xdF(x)\),这个积分严格来说不能称为黎曼积分,而是Riemann-Stieltjes积分,定义为\(\displaystyle\int_{a}^bg(x)\mathrm dF(x)=\lim_{\lambda\rightarrow 0}\sum_{i=1}^n g(\xi_i)(F(x_{i+1})-F(x_i))\)。一般地我们有\(\E[g(X)]=\displaystyle\int_{-\infty}^{+\infty} g(x)dF(x)\)。这表明由随机变量的分布本身就能够直接确定随机变量的期望(离散情形下这是显然的),已知分布函数就可以直接积分求出期望。

期望的常用不等式

Jensen不等式

对于凸函数\(\varphi\)成立\(\E[\varphi(X)]\geq \varphi(\E[X])\)

Pf:\(\varphi\)有一阶条件\(\varphi(x)\geq \varphi(x_0)+\varphi'(x_0)(x-x_0)\)。对于任意随机变量\(X\),取\(x_0=\E[X]\),那么一定成立\(\forall \omega \in \Omega\)\(\varphi(X(\omega))\geq \varphi(\E[X])+\varphi'(\E[X])(X(\omega)-\E[X])\),两边同时取期望得\(\E[\varphi(X)]\geq \varphi(\E[X])+\varphi'(\E[X])(\E[X]-\E[X])=\varphi(\E[X])\)。这体现出连续期望也可以看作某种加权平均。

Markov不等式

对于非负的随机变量\(X\)以及非负的实数\(a\),成立\(\Pr[X\geq a]\leq \dfrac{\E[X]}{a}\)

Pf:\(a\Pr[X\geq a]\leq a\displaystyle\int_{X \geq a}dP \leq \int_{X \geq a}XdP \leq \int_{\Omega}XdP=\E[X]\)

Chebyshev不等式

对于随机变量\(X\)以及非负的实数\(a\),成立\(\Pr[|X-\E[X]|\geq a]\leq \dfrac{\Var(X)}{a^2}\)

Pf:\(\Pr[|X-\E[X]|\geq a]=\Pr[(X-\E[X])^2\geq a^2]\),随机变量\((X-\E[X])^2\)非负,由Markov不等式可得\(\Pr[(X-\E[X])^2\geq a^2]\leq \dfrac{\E[(X-\E[X])^2]}{a^2}=\dfrac{\E[X^2]-2\E[X]^2+\E[X]^2}{a^2}\)\(=\dfrac{\E[X^2]-\E[X^2]}{a^2}=\dfrac{\Var(X)}{a^2}\)

Cauchy-Schwarz不等式

对于随机变量\(X,Y\),成立\(\E[XY]\leq \sqrt{\E[X^2]}\cdot \sqrt{\E[Y^2]}\)

Pf:\(\forall \lambda>0\)\(\E[(X-\lambda Y)^2]=\E[X^2]-2\lambda\E[XY]+\lambda^2\E[Y^2]\geq 0\)。因此\(\E[XY]\leq\dfrac{\E[X^2]+\lambda^2\E[Y^2]}{2\lambda}\)。取\(\lambda=\sqrt{\dfrac{\E[X^2]}{\E[Y^2]}}\),则\(\E[XY]\leq \dfrac{\sqrt{\E[Y^2]}(\E[X^2]+\E[X^2])}{2\sqrt{\E[X^2]}}=\sqrt{\E[X^2]}\cdot \sqrt{\E[Y^2]}\)

常见的连续分布

指数分布(Exponential Distribution)

\(\lambda>0\),称\(\newcommand{\exp}{\operatorname{Exp}}X\sim \exp(\lambda)\),若\(\forall t\geq 0,\Pr[X>t]=e^{-\lambda t}\) ,即\(X\)的累积分布函数为 \(F(t)=1-e^{-\lambda t}\)

指数分布与泊松分布有密切的联系。如果说泊松分布对应描述一段时间内的人流量,那么对应的指数分布就可以用来描述相邻两个人到达的时间间隔的分布情况。

高斯分布(Gaussian Distribution/正态分布(Normal Distribution))

称随机变量\(X \sim N(\mu,\sigma^2)\),若\(X\)有density function \(f(x)=\dfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)。在之后讨论中心极限定理的时候我们会集中讨论这个分布。

联合分布(Joint Distribution)

在研究多元函数时,如果其各个自变量是不同的随机变量,我们其实就在研究随机变量的联合分布。此时我们要对样本空间做笛卡尔积,相应的也要对事件集(\(\sigma\)-algebra)做拓展。对于概率空间(本质上是测度空间)\((\Omega_1,\F_1,P_1)\)\(\Omega_2,\F_2,P_2)\),定义乘积测度空间\((\Omega_1\times \Omega_2,\F_1 \otimes \F_2,P_1\otimes P_2)\)。其中,\(\F_1\otimes \F_2\)定义为\(\sigma(\F_1\times \F_2)\),即由\(\F_1\times \F_2\)生成的最小\(\sigma\)-algebra。\(P_1\otimes P_2\)定义为测度\(\pi\)\(\forall A \in \F_1,B\in\F_2\)\(\pi(A\times B)=P_1(A)\cdot P_2(B)\)

仿照一元情形的累积分布函数,定义二元的联合分布函数(Joint Distribution Function) \(F(x,y)=\Pr[X \leq x \and Y \leq y]\)(多元类似)。同样的,如果存在非负函数\(f(x,y)\)使得\(F(a,b)=\displaystyle\int^a_{−\infty}\displaystyle\int^b_{−\infty}f(x,y)dxdy\)恒成立,就称\(f(x,y)\)为Joint density。在Joint density中让一个变量取满任意值时,它就又可以看作是一元的density function,这时的分布称为Marginal Density。例如在\(X,Y\)的联合分布中,让\(Y\)取遍所有值,那么对于任意的\(X=x\),此时的分布函数\(F(x,y)\)只关于\(x\)变化,记为\(f_X(x)=\displaystyle\int_{-\infty}^{+\infty}f(x,y)dy\)。如果\(X,Y\)独立,那么\(f(x,y)=f_X(x)\cdot f_Y(y)\)

我们注意到由于我们在联合分布中需要反复使用多重积分,因此重积分化为累次积分以及积分顺序交换问题是重要的技术问题。为此我们引入Fubini-Tonelli定理。它指出如果满足函数恒为正,或者\(|f|\)可积,那么可以进行如下变换\(\displaystyle\iint _{X\times Y}f(x,y)π(d(x,y))=\int _X(\int_Yf(x,y)ν(dy))μ(dx)=\int_Y(\int_Xf(x,y)μ(dx))ν(dy)\)

利用这个结论,我们可以证明一元的期望\(\E[X^p]=p\displaystyle\int_0^{+\infty}t^{p-1}P(X>t)dt\)。特别地当\(p=1\)时,\(\E[X]=\displaystyle\int_{0}^{+\infty}P(X>t)dt\),这是求期望的另一个常用方法。

条件概率

对于离散随机变量我们定义了\(\Pr[Y \leq y \mid X=x]\)为条件分布,但在连续情形下\(X=x\)的概率为0,因此显然我们不能把它写作\(\dfrac{\Pr[Y \leq y \and X=x]}{\Pr[X=x]}\)。为此,我们把\(\Pr[X=x]\)写作\(\Pr[X \in [x,x+h]]\),再上下同时令\(h \to 0\)。而这样它就可以写作概率密度的积分\(\lim\limits_{h\to 0^+}\dfrac{\displaystyle\int_{-\infty}^y\int_x^{x+h} f_{XY}(u,v)dudv}{\displaystyle\int_{x}^{x+h} f_X(u)du}\),根据积分中值定理,它等于\(\lim\limits_{h\to 0^+}\dfrac{\displaystyle\int_{-\infty}^y(h\cdot f_{XY}(x,v)+o(h))dv}{h \cdot f_X(x)+o(h)}\),这样就得到了连续情形下条件分布的定义\(F_{Y\mid X}(y\mid x)=\Pr[Y \leq y \mid X=x]=\dfrac{\displaystyle\int_{-\infty}^y f_{XY}(x,v)dv}{f_X(x)}\)。因此相应的density为\(f_{Y \mid X}(y \mid x)=\dfrac{f_{XY}(x,y)}{f_X(x)}\)

由此可以证明连续版本的全概率公式:\(\Pr[Y \in A]=\displaystyle\int_{-\infty}^{+\infty}\Pr[Y \in A \mid X=u]f_X(u)du\)

另一个常见的应用时,当一个随机变量定义为另两个随机变量的和时,比如\(Z=X+Y\)),他们的density有一个简单的关系。用全概率公式写出\(F_Z(z)\),最终得到\(f_Z(z)=\displaystyle\int_{-\infty}^{+\infty}f_{XY}(x,z-x)dx\)。当\(X,Y\)独立时,\(f_Z(z)=\displaystyle\int_{-\infty}^{+\infty}f_{X}(x)f_Y(z-x)dx\),即\(Z\)的density是\(X,Y\)的density的卷积。

posted @ 2023-10-21 14:28  DennyQi  阅读(139)  评论(0编辑  收藏  举报