机器学习的数学基础-（三、概率论和数理统计）

概率论和数理统计

随机事件和概率

1.事件的关系与运算

(1) 子事件： $A \subset B$ ，若发生，则发生。

(2) 相等事件：，即 $A \subset B$ ，且 $B \subset A$ 。

(3) 和事件： $A\bigcup B$ （或），与中至少有一个发生。

(4) 差事件：，发生但不发生。

(5) 积事件： $A\bigcap B$ （或），与同时发生。

(6) 互斥事件（互不相容）： $A\bigcap B=\varnothing$ 。

(7) 互逆事件（对立事件）：
$A\bigcap B=\varnothing ,A\bigcup B=\Omega ,A=\bar{B},B=\bar{A}$

2.运算律
(1) 交换律： $A\bigcup B=B\bigcup A,A\bigcap B=B\bigcap A$
(2) 结合律： $(A\bigcup B)\bigcup C=A\bigcup (B\bigcup C)$ ；
$(A\bigcap B)\bigcap C=A\bigcap (B\bigcap C)$
(3) 分配律： $(A\bigcup B)\bigcap C=(A\bigcap C)\bigcup (B\bigcap C)$

3.德 $\centerdot$ 摩根律

$\overline{A\bigcup B}=\bar{A}\bigcap \bar{B}$ $\overline{A\bigcap B}=\bar{A}\bigcup \bar{B}$

4.完全事件组

${{A}_{1}}{{A}_{2}}\cdots {{A}_{n}}$ 两两互斥，且和事件为必然事件，即 ${{A}_{i}}\bigcap {{A}_{j}}=\varnothing, i\ne j ,\underset{i=1}{\overset{n}{\mathop \bigcup }}\,=\Omega$

5.概率的基本公式
(1)条件概率:
$P(B|A)=\frac{P(AB)}{P(A)}$ ,表示发生的条件下，发生的概率。
(2)全概率公式：
$P(A)=\sum\limits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}}),{{B}_{i}}{{B}_{j}}}=\varnothing ,i\ne j,\underset{i=1}{\overset{n}{\mathop{\bigcup }}}\,{{B}_{i}}=\Omega$
(3) Bayes公式：

$P({{B}_{j}}|A)=\frac{P(A|{{B}_{j}})P({{B}_{j}})}{\sum\limits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}})}},j=1,2,\cdots ,n$
注：上述公式中事件 ${{B}_{i}}$ 的个数可为可列个。

(4)乘法公式： $P({{A}_{1}}{{A}_{2}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})=P({{A}_{2}})P({{A}_{1}}|{{A}_{2}})$

$P({{A}_{1}}{{A}_{2}}\cdots {{A}_{n}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})P({{A}_{3}}|{{A}_{1}}{{A}_{2}})\cdots P({{A}_{n}}|{{A}_{1}}{{A}_{2}}\cdots {{A}_{n-1}})$

6.事件的独立性
(1)  与  相互独立 $\Leftrightarrow P(AB)=P(A)P(B)$
(2)  ，  ，  两两独立
$\Leftrightarrow P(AB)=P(A)P(B)$ ;  ;  ;
(3)  ，  ，  相互独立
$\Leftrightarrow P(AB)=P(A)P(B)$ ;  ;
;

7.独立重复试验

将某试验独立重复次，若每次实验中事件发生的概率为，则次试验中发生次的概率为：
$P(X=k)=C_{n}^{k}{{p}^{k}}{{(1-p)}^{n-k}}$

8.重要公式与结论

(1) $P(\bar{A})=1-P(A)$

(2) $P(A\bigcup B)=P(A)+P(B)-P(AB)$ $P(A\bigcup B\bigcup C)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)$

(3)

(4) $P(A\bar{B})=P(A)-P(AB),P(A)=P(AB)+P(A\bar{B})$ , $P(A\bigcup B)=P(A)+P(\bar{A}B)=P(AB)+P(A\bar{B})+P(\bar{A}B)$

(5)条件概率 $P(\centerdot |B)$ 满足概率的所有性质，例如：. $P({{\bar{A}}_{1}}|B)=1-P({{A}_{1}}|B)$

$P({{A}_{1}}\bigcup {{A}_{2}}|B)=P({{A}_{1}}|B)+P({{A}_{2}}|B)-P({{A}_{1}}{{A}_{2}}|B)$ $P({{A}_{1}}{{A}_{2}}|B)=P({{A}_{1}}|B)P({{A}_{2}}|{{A}_{1}}B)$
(6)若 ${{A}_{1}},{{A}_{2}},\cdots ,{{A}_{n}}$ 相互独立，则 $$P(\bigcap\limits_{i=1}^{n}{{{A}_{i}}})=\prod\limits_{i=1}^{n}{P({{A}_{i}})}$ , $P(\bigcup\limits_{i=1}^{n}{{{A}_{i}}})=\prod\limits_{i=1}^{n}{(1-P({{A}_{i}}))}$

(7)互斥、互逆与独立性之间的关系：与互逆 $\Rightarrow$ 与互斥，但反之不成立，与互斥（或互逆）且均非零概率事件 $\Rightarrow$ 与不独立。

(8)若 ${{A}_{1}},{{A}_{2}},\cdots ,{{A}_{m}},{{B}_{1}},{{B}_{2}},\cdots ,{{B}_{n}}$ 相互独立，则 $f({{A}_{1}},{{A}_{2}},\cdots ,{{A}_{m}})$ 与 $g({{B}_{1}},{{B}_{2}},\cdots ,{{B}_{n}})$ 也相互独立，其中 $f(\centerdot ),g(\centerdot )$ 分别表示对相应事件做任意事件运算后所得的事件，另外，概率为1（或0）的事件与任何事件相互独立.

随机变量及其概率分布

1.随机变量及概率分布

取值带有随机性的变量，严格地说是定义在样本空间上，取值于实数的函数称为随机变量，概率分布通常指分布函数或分布律

2.分布函数的概念与性质

定义： $F(x) = P(X \leq x), - \infty < x < + \infty$

性质：

(1) $0 \leq F(x) \leq 1$

(2) 单调不减

(3) 右连续

(4) $F( - \infty) = 0,F( + \infty) = 1$

3.离散型随机变量的概率分布

$P(X = x_{i}) = p_{i},i = 1,2,\cdots,n,\cdots\quad\quad p_{i} \geq 0,\sum_{i =1}^{\infty}p_{i} = 1$

4.连续型随机变量的概率密度

概率密度 ;非负可积，且:

(1) $f(x) \geq 0$

(2) $\int_{- \infty}^{+\infty}{f(x){dx} = 1}$

(3) 为的连续点，则:

分布函数 $F(x) = \int_{- \infty}^{x}{f(t){dt}}$

5.常见分布

(1) 0-1分布: $P(X = k) = p^{k}{(1 - p)}^{1 - k},k = 0,1$

(2) 二项分布: ： $P(X = k) = C_{n}^{k}p^{k}{(1 - p)}^{n - k},k =0,1,\cdots,n$

(3) Poisson分布: $p(\lambda)$ ： $P(X = k) = \frac{\lambda^{k}}{k!}e^{-\lambda},\lambda > 0,k = 0,1,2\cdots$

(4) 均匀分布： $f(x) = \{ \begin{matrix} & \frac{1}{b - a},a < x< b \\ & 0, \\ \end{matrix}$

(5) 正态分布: $N(\mu,\sigma^{2})$ ： $\varphi(x) =\frac{1}{\sqrt{2\pi}\sigma}e^{- \frac{{(x - \mu)}^{2}}{2\sigma^{2}}},\sigma > 0,\infty < x < + \infty$

(6)指数分布: $E(\lambda):f(x) =\{ \begin{matrix} & \lambda e^{-{λx}},x > 0,\lambda > 0 \\ & 0, \\ \end{matrix}$

(7)几何分布: $G(p):P(X = k) = {(1 - p)}^{k - 1}p,0 < p < 1,k = 1,2,\cdots.$

(8)超几何分布: $H(N,M,n):P(X = k) = \frac{C_{M}^{k}C_{N - M}^{n -k}}{C_{N}^{n}},k =0,1,\cdots,min(n,M)$

6.随机变量函数的概率分布

(1)离散型： $P(X = x_{1}) = p_{i},Y = g(X)$

则: $P(Y = y_{j}) = \sum_{g(x_{i}) = y_{i}}^{}{P(X = x_{i})}$

(2)连续型： $X\tilde{\ }f_{X}(x),Y = g(x)$

则: $F_{y}(y) = P(Y \leq y) = P(g(X) \leq y) = \int_{g(x) \leq y}^{}{f_{x}(x)dx}$ ， $f_{Y}(y) = F'_{Y}(y)$

7.重要公式与结论

(1) $X\sim N(0,1) \Rightarrow \varphi(0) = \frac{1}{\sqrt{2\pi}},\Phi(0) =\frac{1}{2}$ ， $\Phi( - a) = P(X \leq - a) = 1 - \Phi(a)$

(2) $X\sim N\left( \mu,\sigma^{2} \right) \Rightarrow \frac{X -\mu}{\sigma}\sim N\left( 0,1 \right),P(X \leq a) = \Phi(\frac{a -\mu}{\sigma})$

(3) $X\sim E(\lambda) \Rightarrow P(X > s + t|X > s) = P(X > t)$

(4) $X\sim G(p) \Rightarrow P(X = m + k|X > m) = P(X = k)$

(5) 离散型随机变量的分布函数为阶梯间断函数；连续型随机变量的分布函数为连续函数，但不一定为处处可导函数。

(6) 存在既非离散也非连续型随机变量。

多维随机变量及其分布

1.二维随机变量及其联合分布

由两个随机变量构成的随机向量，联合分布为 $F(x,y) = P(X \leq x,Y \leq y)$

2.二维离散型随机变量的分布

(1) 联合概率分布律 $P\{ X = x_{i},Y = y_{j}\} = p_{{ij}};i,j =1,2,\cdots$

(2) 边缘分布律 $p_{i \cdot} = \sum_{j = 1}^{\infty}p_{{ij}},i =1,2,\cdots$

$p_{\cdot j} = \sum_{i}^{\infty}p_{{ij}},j = 1,2,\cdots$

(3) 条件分布律 $P\{ X = x_{i}|Y = y_{j}\} = \frac{p_{{ij}}}{p_{\cdot j}}$ $P\{ Y = y_{j}|X = x_{i}\} = \frac{p_{{ij}}}{p_{i \cdot}}$

3. 二维连续性随机变量的密度

(1) 联合概率密度：

1) $f(x,y) \geq 0$

2) $\int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{f(x,y)dxdy}} = 1$

(2) 分布函数： $F(x,y) = \int_{- \infty}^{x}{\int_{- \infty}^{y}{f(u,v)dudv}}$

(3) 边缘概率密度： $f_{X}\left( x \right) = \int_{- \infty}^{+ \infty}{f\left( x,y \right){dy}}$ $f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$

(4) 条件概率密度： $f_{X|Y}\left( x \middle| y \right) = \frac{f\left( x,y \right)}{f_{Y}\left( y \right)}$ $f_{Y|X}(y|x) = \frac{f(x,y)}{f_{X}(x)}$

4.常见二维随机变量的联合分布

(1) 二维均匀分布： $(x,y) \sim U(D)$ , $f(x,y) = \begin{cases} \frac{1}{S(D)},(x,y) \in D \\ 0,其他 \end{cases}$

(2) 二维正态分布： $(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$ , $(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$

$f(x,y) = \frac{1}{2\pi\sigma_{1}\sigma_{2}\sqrt{1 - \rho^{2}}}.\exp\left\{ \frac{- 1}{2(1 - \rho^{2})}\lbrack\frac{{(x - \mu_{1})}^{2}}{\sigma_{1}^{2}} - 2\rho\frac{(x - \mu_{1})(y - \mu_{2})}{\sigma_{1}\sigma_{2}} + \frac{{(y - \mu_{2})}^{2}}{\sigma_{2}^{2}}\rbrack \right\}$

5.随机变量的独立性和相关性

和的相互独立: $\Leftrightarrow F\left( x,y \right) = F_{X}\left( x \right)F_{Y}\left( y \right)$ :

$\Leftrightarrow p_{{ij}} = p_{i \cdot} \cdot p_{\cdot j}$ （离散型） $\Leftrightarrow f\left( x,y \right) = f_{X}\left( x \right)f_{Y}\left( y \right)$ （连续型）

和的相关性：

相关系数 $\rho_{{XY}} = 0$ 时，称和不相关，
否则称和相关

6.两个随机变量简单函数的概率分布

离散型： $P\left( X = x_{i},Y = y_{i} \right) = p_{{ij}},Z = g\left( X,Y \right)$ 则：

$P(Z = z_{k}) = P\left\{ g\left( X,Y \right) = z_{k} \right\} = \sum_{g\left( x_{i},y_{i} \right) = z_{k}}^{}{P\left( X = x_{i},Y = y_{j} \right)}$

连续型： $\left( X,Y \right) \sim f\left( x,y \right),Z = g\left( X,Y \right)$
则：

$F_{z}\left( z \right) = P\left\{ g\left( X,Y \right) \leq z \right\} = \iint_{g(x,y) \leq z}^{}{f(x,y)dxdy}$ , $f_{z}(z) = F'_{z}(z)$

7.重要公式与结论

(1) 边缘密度公式： $f_{X}(x) = \int_{- \infty}^{+ \infty}{f(x,y)dy,}$ $f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$

(2) $P\left\{ \left( X,Y \right) \in D \right\} = \iint_{D}^{}{f\left( x,y \right){dxdy}}$

(3) 若服从二维Y=y正态分布 $N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$
则有：

1) $X\sim N\left( \mu_{1},\sigma_{1}^{2} \right),Y\sim N(\mu_{2},\sigma_{2}^{2}).$

2) 与相互独立 $\Leftrightarrow \rho = 0$ ，即与不相关。

3) $C_{1}X + C_{2}Y\sim N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} + C_{2}^{2}\sigma_{2}^{2} + 2C_{1}C_{2}\sigma_{1}\sigma_{2}\rho)$

4) ${\ X}$ 关于的条件分布为： $N(\mu_{1} + \rho\frac{\sigma_{1}}{\sigma_{2}}(y - \mu_{2}),\sigma_{1}^{2}(1 - \rho^{2}))$

5) 关于的条件分布为： $N(\mu_{2} + \rho\frac{\sigma_{2}}{\sigma_{1}}(x - \mu_{1}),\sigma_{2}^{2}(1 - \rho^{2}))$

(4) 若与独立，且分别服从 $N(\mu_{1},\sigma_{1}^{2}),N(\mu_{1},\sigma_{2}^{2}),$
则： $\left( X,Y \right)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},0),$

$C_{1}X + C_{2}Y\tilde{\ }N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} C_{2}^{2}\sigma_{2}^{2}).$

(5) 若与相互独立， $f\left( x \right)$ 和 $g\left( x \right)$ 为连续函数，则 $f\left( X \right)$ 和也相互独立。

随机变量的数字特征

1.数学期望

离散型： $P\left\{ X = x_{i} \right\} = p_{i},E(X) = \sum_{i}^{}{x_{i}p_{i}}$ ；

连续型： $X\sim f(x),E(X) = \int_{- \infty}^{+ \infty}{xf(x)dx}$

性质：

(1) $E(C) = C,E\lbrack E(X)\rbrack = E(X)$

(2) $E(C_{1}X + C_{2}Y) = C_{1}E(X) + C_{2}E(Y)$

(3) 若和独立，则

(4) $\left\lbrack E(XY) \right\rbrack^{2} \leq E(X^{2})E(Y^{2})$

2.方差： $D(X) = E\left\lbrack X - E(X) \right\rbrack^{2} = E(X^{2}) - \left\lbrack E(X) \right\rbrack^{2}$

3.标准差： $\sqrt{D(X)}$ ，

4.离散型： $D(X) = \sum_{i}^{}{\left\lbrack x_{i} - E(X) \right\rbrack^{2}p_{i}}$

5.连续型： $D(X) = {\int_{- \infty}^{+ \infty}\left\lbrack x - E(X) \right\rbrack}^{2}f(x)dx$

性质：

(1) $\ D(C) = 0,D\lbrack E(X)\rbrack = 0,D\lbrack D(X)\rbrack = 0$

(2) 与相互独立，则 $D(X \pm Y) = D(X) + D(Y)$

(3) $\ D\left( C_{1}X + C_{2} \right) = C_{1}^{2}D\left( X \right)$

(4) 一般有 $D(X \pm Y) = D(X) + D(Y) \pm 2Cov(X,Y) = D(X) + D(Y) \pm 2\rho\sqrt{D(X)}\sqrt{D(Y)}$

(5) $\ D\left( X \right) < E\left( X - C \right)^{2},C \neq E\left( X \right)$

(6) $\ D(X) = 0 \Leftrightarrow P\left\{ X = C \right\} = 1$

6.随机变量函数的数学期望

(1) 对于函数

为离散型： $P\{ X = x_{i}\} = p_{i},E(Y) = \sum_{i}^{}{g(x_{i})p_{i}}$ ；

为连续型： $X\sim f(x),E(Y) = \int_{- \infty}^{+ \infty}{g(x)f(x)dx}$

(2) ; $\left( X,Y \right)\sim P\{ X = x_{i},Y = y_{j}\} = p_{{ij}}$ ; $E(Z) = \sum_{i}^{}{\sum_{j}^{}{g(x_{i},y_{j})p_{{ij}}}},\left( X,Y \right)\sim f(x,y)$ ; $E(Z) = \int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{g(x,y)f(x,y)dxdy}}$

7.协方差

$Cov(X,Y) = E\left\lbrack (X - E(X)(Y - E(Y)) \right\rbrack$

8.相关系数

$\rho_{{XY}} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$ ;
阶中心矩 $E\left\{ {\lbrack X - E(X)\rbrack}^{k} \right\}$

性质：

(1) $\ Cov(X,Y) = Cov(Y,X)$

(2) $\ Cov(aX,bY) = abCov(Y,X)$

(3) $\ Cov(X_{1} + X_{2},Y) = Cov(X_{1},Y) + Cov(X_{2},Y)$

(4) $\ \left| \rho\left( X,Y \right) \right| \leq 1$

(5) $\ \rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$ ，其中

$\rho\left( X,Y \right) = - 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$
，其中

9.重要公式与结论

(1) $\ D(X) = E(X^{2}) - E^{2}(X)$

(2) $\ Cov(X,Y) = E(XY) - E(X)E(Y)$

(3) $\left| \rho\left( X,Y \right) \right| \leq 1,$ 且 $\rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$ ，其中

$\rho\left( X,Y \right) = - 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$ ，其中

(4) 下面5个条件互为充要条件：

$\rho(X,Y) = 0$ $\Leftrightarrow Cov(X,Y) = 0$ $\Leftrightarrow E(X,Y) = E(X)E(Y)$

$\Leftrightarrow D(X + Y) = D(X) + D(Y)\Leftrightarrow D(X - Y) = D(X) + D(Y)$

注：与独立为上述5个条件中任何一个成立的充分条件，但非必要条件。

数理统计的基本概念

1.基本概念

总体：研究对象的全体，它是一个随机变量，用表示。

个体：组成总体的每个基本元素。

简单随机样本：来自总体的个相互独立且与总体同分布的随机变量 $X_{1},X_{2}\cdots,X_{n}$ ，称为容量为的简单随机样本，简称样本。

统计量：设 $X_{1},X_{2}\cdots,X_{n},$ 是来自总体的一个样本， $g(X_{1},X_{2}\cdots,X_{n})$ ）是样本的连续函数，且中不含任何未知参数，则称 $g(X_{1},X_{2}\cdots,X_{n})$ 为统计量。

样本均值： $\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}$

样本方差： $S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{2}$

样本矩：样本阶原点矩： $A_{k} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}^{k},k = 1,2,\cdots$

样本阶中心矩： $B_{k} = \frac{1}{n}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{k},k = 1,2,\cdots$

2.分布

$\chi^{2}$ 分布： $\chi^{2} = X_{1}^{2} + X_{2}^{2} + \cdots + X_{n}^{2}\sim\chi^{2}(n)$ ，其中 $X_{1},X_{2}\cdots,X_{n},$ 相互独立，且同服从

分布： $T = \frac{X}{\sqrt{Y/n}}\sim t(n)$ ，其中 $X\sim N\left( 0,1 \right),Y\sim\chi^{2}(n),$ 且，相互独立。

分布： $F = \frac{X/n_{1}}{Y/n_{2}}\sim F(n_{1},n_{2})$ ，其中 $X\sim\chi^{2}\left( n_{1} \right),Y\sim\chi^{2}(n_{2}),$ 且，相互独立。

分位数：若 $P(X \leq x_{\alpha}) = \alpha,$ 则称 $x_{\alpha}$ 为的 $\alpha$ 分位数

3.正态总体的常用样本分布

(1) 设 $X_{1},X_{2}\cdots,X_{n}$ 为来自正态总体 $N(\mu,\sigma^{2})$ 的样本，

$\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i},S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{{(X_{i} - \overline{X})}^{2},}$ 则：

1) $\overline{X}\sim N\left( \mu,\frac{\sigma^{2}}{n} \right){\ \ }$ 或者 $\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1)$

2) $\frac{(n - 1)S^{2}}{\sigma^{2}} = \frac{1}{\sigma^{2}}\sum_{i = 1}^{n}{{(X_{i} - \overline{X})}^{2}\sim\chi^{2}(n - 1)}$

3) $\frac{1}{\sigma^{2}}\sum_{i = 1}^{n}{{(X_{i} - \mu)}^{2}\sim\chi^{2}(n)}$

4) ${\ \ }\frac{\overline{X} - \mu}{S/\sqrt{n}}\sim t(n - 1)$

4.重要公式与结论

(1) 对于 $\chi^{2}\sim\chi^{2}(n)$ ，有 $E(\chi^{2}(n)) = n,D(\chi^{2}(n)) = 2n;$

(2) 对于 $T\sim t(n)$ ，有 $E(T) = 0,D(T) = \frac{n}{n - 2}(n > 2)$ ；

(3) 对于 $F\tilde{\ }F(m,n)$ ，有 $\frac{1}{F}\sim F(n,m),F_{a/2}(m,n) = \frac{1}{F_{1 - a/2}(n,m)};$

(4) 对于任意总体，有 $E(\overline{X}) = E(X),E(S^{2}) = D(X),D(\overline{X}) = \frac{D(X)}{n}$

posted @ 2019-05-16 10:26 爱你爱自己阅读(750) 评论(0) 收藏举报

刷新页面返回顶部

爱你爱自己