随笔- 11 文章- 0 评论- 0 阅读- 1412

1. 随机变量

随机变量是一些概率事件通过某些方式映射到实数域后对应的变量，随机变量的抽象意味着我们可以通过数学工具来对这些事件做一些分析，站在coder的角度，可以理解为一些映射关系

随机变量分为离散型和连续型，离散型如掷骰子这种结果集是一个个离散的值，连续型则是像绳子的长度这种，我们可以分析其在某个范围内的概率，但是无法分析其在某一个具体数值的概率

离散型随机变量用一个个离散值及其概率来描述，而连续型通常使用概率密度f(x)来表示，概率密度不是x在某点的概率值，也不是离散随机变量连续化的直接映射（否则f(10)=100这种事就无法理解了)。f(x) 描述的是累计分布函数F(x) 在某点的导数值。

这事就跟所有的微分和积分关系一样，比如距离和速度形成积分关系，我们可以画出速率->时间曲线，任何时刻速度都大于等于0，速度-时间曲线不能直接反应某一时刻的距离，必须对其求积分。并且根据曲线的形状（比如头尾数值较低，中间数值较高），我们可以说头尾行驶的距离较少，中间时刻行驶的距离多等等，但具体数值还是只能通过积分关系反应

前面说过，连续随机变量通常是研究其在某个区间内的概率，比如，在区间 $[a,b]$ 内，其对应概率是 $P_{ab} = F(b)-F(a)$ , 其概率密度是 $\frac{P_{ab}}{b-a}$ 当 $\lim_{b\rightarrow 0}$ 时，上式等价于对 $F(x)$ 的求导，即概率密度函数 $f(x)$

2. 数学期望

平均值，对于序列 $x(n)$ , 其平均值是 $M=\frac{1}{N}\sum x[n]$
加权平均值，对于序列 $x_ n$ , 加权系数为 $w_n$ ，并且满足 $\sum w_i = 1$ , 则加权平均值的结果是: $M_w = \sum {x_iw_i}$ , 可以发现均值是加权平均的一种特殊情况，其每个值权重都是 $\frac{1}{N}$
- 加权平均值应当从结果构成成分来看，即一个结果总的成分是100%,不可能超过1。而权重则是各数据所占的百分比。
- 举生活中的例子，假设一个班级100人，考80分的人为20， 90的为30，100的为50，那么，我们可以按照普通方法累计总分数除以总人数，也可以这么来看，80分比例为0.2 ，权重为0.2，同理90 0.3 100 0.5，按照加权平均数的结果来计算就显而易见了。这里权重的含义也相当贴切了
- 实际上加权平均数很自然的就能和期望关联了，这也表明了我们为何我们在工程应用时，直接使用均值代替期望

由加权平均值我们就可以引入数学期望了，数学期望表示为: $E(x) = \sum x_i p_i$ ，我们以概率作为离散值的权重，有时也会写作 $\bold{x}\bold{w}^T$

1. 连续随机变量的数学期望

连续随机变量的数学期望是

\int x (f x) d x

$\int x(fx)dx$

其中 $f(x)$ 是x的概率密度函数，这个看起来和离散的数学期望很像，但是这个东西并不是离散随机变量连续化直接推导而来，详细过程可以参考:
连续随机变量的期望推导
简单来看，我们可以假设很小一段变化区间 $\Delta x$ , 其概率值是 $f(x_i)\Delta x$ , 我们以 $x_i$ 代替这一小段区间的x的取值，就有:

E = lim_{Δ x \to 0} \sum x_{i} f (x_{i}) Δ x

$E=\lim_{\Delta x \rightarrow 0}\sum x_i f(x_i)\Delta x$

上式中， $x_i$ 随着变化量趋近0变为连续的x, 同时上式变成积分:

\int x f (x) d x

$\int xf(x) dx$

数学期望的性质

线性性质:
- $E(ax+C)= aE(x) + C$
叠加性质任何条件下成立
- $E(X±Y) = E(X) ± E(Y)$
相乘，当X Y 独立时成立
- E(XY) = E(X)E(Y)

方差

期望反应的时均值概念，方差反应的则是数据的波动概念，为了防止±波动在求和过程中抵消以及防止求abs导致的不可导问题，我们使用平方来统计波动数据。随机变量的方差定义为：

D (X) = E [(X - E (X))^{2}]

$D(X)= E[(X-E(X))^2]$

对上式展开:

D (X) = E {X^{2} - 2 X E (X) + E (X)^{2}} = E (X^{2}) - 2 E (X) E (X) + E (X)^{2} = E (X^{2}) - E (X)^{2}

$D(X) = E\lbrace X^2 -2XE(X) + E(X)^2 \rbrace = \\ E(X^2) - 2E(X)E(X) + E(X)^2 = \\ E(X^2) - E(X)^2$

方差的性质

$D(X+C) = D(X)$

证：

D (X + C) = E [(X + C)^{2}] - E (X + C)^{2} = E {X^{2} + 2 C X + C^{2}} - E (X)^{2} - C^{2} - 2 C E (X) = E (X^{2}) - E (X)^{2} = D (X)

$D(X+C) = E[(X+C)^2] - E(X+C)^2 = \\ E\lbrace X^2 +2CX + C^2\rbrace - E(X)^2 - C^2 - 2CE(X)= \\ E(X^2) - E(X)^2 = D(X)$

$D(CX) = C^2D(X)$

证:

D (C X) = E [(C X)^{2}] - [C E (X)]^{2} = E (C^{2} X^{2}) - C^{2} E (X)^{2} C^{2} E (X^{2}) - C^{2} E (X)^{2} = C^{2} [E (X^{2}) - E (X)^{2}] = C^{2} D (X)

$D(CX) = E[(CX)^2] - [CE(X)]^2 = E(C^2X^2) - C^2E(X)^2 \\ C^2E(X^2) - C^2E(X)^2 = C^2[E(X^2) - E(X)^2] = C^2D(X)$

$D(X±Y)=D(X)+D(Y)$ 仅XY独立时成立

D (X \pm Y) = E {X^{2} + Y^{2} \pm 2 X Y} - [E (X \pm Y)]^{2} = E (X^{2}) + E (Y^{2}) \pm 2 E (X Y) - {E (X)^{2} + E (Y)^{2} \pm 2 E (X) E (Y)} = E (X^{2}) - E (X)^{2} + E (Y^{2}) - E (Y)^{2} + 2 [E (X Y) - E (X) E (Y)]

$D(X±Y) = E\lbrace X^2 + Y^2 ± 2XY \rbrace - [E(X±Y)]^2 \\ =E(X^2) +E(Y^2) ± 2E(XY) -\lbrace E(X)^2 + E(Y)^2 ±2E(X)E(Y)\rbrace = \\ E(X^2) - E(X)^2 + E(Y^2)-E(Y)^2 + 2[E(XY)-E(X)E(Y)]$

当 $XY$ 独立时， $E(XY)=E(X)E(Y)$
则: