PT_随机变量&离散型随机变量及其常见分布(二项分布/Possion分布)

随机变量&离散型随机变量及其常见分布

将一些非数量表示的随机事件用数字来表示,就建立起了随机变量的概念
- 随机变量是数量化的,便于研究随机现象的规律(推导&计算)
$定义样本空间\Omega上的实值函数X=X(\omega)$
- 定义域 $\omega\in \Omega$
  - 随机变量是特殊的函数,主要是因为它是**定义在某试验的样本空间 $\Omega$ **上的
- $X=X(\omega)就是随机变量,简记为X$
  - $X(\omega)将样本点(无论是不是数值,但主要针对非数值的样本点类型)映射称数值,便于计算/研究$
- 值域:X的结果是一个实值
例如:
- 投一枚硬币的样本空间{H,T}
  - H表示正面,T表示反面
  - 进一步,如果用数值1表示正面,用0表示反面,这样,正/反面的结果就被映射为数值
    - 那么数值化(经过随机变量函数映射)的样本空间就成为{1,0}
    - 并且,可以用 $\set{X=1}表示正面出现,反面类似$

随机变量的一些特点

随机变量的取值随试验的结果而定
- 在试验之前,只能知道取值范围,而不能够预测它到底取的哪个值
随机变量(不同)取值的概率
- 由于试验的出现各个结果的概率各有一定的概率
- 因此,随机变量取各个值也有一定的概率
- (根据试验的不同,这些不同的取值概率可能是相等的,可能是不同的)

随机变量的分类

离散型随机变量
非离散型随机变量
- 连续型随机变量
- 奇异型随机变量

离散型

离散型随机变量

如果随机变量的所有可能取值是:
- 有限的或者
- 是可列无穷的(可以表示成一个数列)
  - 比如任意给定一个有界区间,区间内可能取值个数是有穷的
例如,投色子的点数

主要问题

确定所有取值
各个值的被取值概率

分布律(概率分布)

设离散型随机变量X的
- 所有可能取值为 $x_1,\cdots,x_k$
- $P(X=x_k)=p_k,k=1,\cdots,k$ 这个表达式就是: $\large随机变量X的分布律(也叫概率分布)$
  - $X=x_k$ 表示发生了 $x_k$ 所代表的事
  - $P(X=x_k)表示发生了x_k所代表的事的概率值$
  - 总之,分布律要能够体现:
    - 随机变量X所有的取值或者取值规律
      - $X的取值x_k本身可能是一个关于k的函数,x_k=x(k)$
        $比如x_k=k$
      - 🎈🎒 $不要把X=x_k和取值的概率P(X=x_k)混淆$
    - X取每个可能值的概率P(X)
- 有时候,也用下面两种方式列出所有的X取值
  - 表格的形式
  - 矩阵的形式

离散型随机变量的性质

以下两个性质是判断某个数列能否作为某个随机变量的分布律的充要条件:
- 取值非负性:
  - $p_k\geqslant 0$
- 规范性:(这很重要)
  - $\sum\limits_{k=1}^{\infin}p_k=1$

例

$对于随机变量X的分布律P(X=k)=\frac{1}{2}(\frac{2}{3})^k,k=1,2,\cdots$

X	1	2	…
P	$\frac{1}{2}\cdot\frac{2}{3}$	$\frac{1}{2}(\frac{2}{3})^2$

$P(\frac{1}{2}<X<\frac{5}{2})=P(\set{X=1}\cup \set{X=2})=P(X=1)+P(X=2)=\frac{5}{9}$

🎈🎈常见的离散型分布

主要提它们的分布律🎆

单点分布(退化分布)

$P (X = c) = 1$
- 最简单的分布,随机变量仅有一个取值(试验结果只有一种,百分之百发生)

两点分布(0-1分布)

$P(X=k)=p^k(1-p)^{1-k}$
- $k\in \set{0,1}$
  - 试验结果仅有两种
    - 基本事件要么发生,要么不发生,
  - $发生的概率记为 p, 则不发生的概率为 1 - p$
    - 可以轻松枚举出全部(两个)X取值下的取值概率
    - $P (X = 0) = 1 - p$
    - $P (X = 1) = p$
- 参数为p的两点分布

🎈二项分布

$P(X=k)=\binom{n}{k}p^k(1-p)^{1-k}$
- $k=0,1,\cdots$
$称 X 服从参数为 n, p 的二项分布$
- 也记为 $X\sim B(n,p)$

背景

$二项分布是 b er n o u ll i 试验$
- $如果每次试验中, 事件 A 发生的概率均为 p$
- $则 n 重 b er n o u ll i 试验中 A 发生次数 X, 服从于参数为 n, p 的二项分布$
$当 n = 1 的时候, 二项分布退化为单点分布$
- $X\sim B(1,p)$

性质

互斥:随机变量取不同值是互斥事件
- 因为对于不同次的 $E^n(n重bernoulli试验),发生的结果是E^n的基本事件(样本点),样本点之间是互斥的$
- 因此,形如 $P(\bigcup\limits_{i=1}^{n} X=x_i)=\sum\limits_{i=1}^nP(X=x_i)$

例

投n次色子
- 以0.5的概率保证至少得到一个6点,至少需要投多少次?
事件分析:我们关心的是,每次基本试验是否得到6点
- $对应到 n 重 b er n o u ll i 试验, 则表现为, n 次独立重复试验到底$ 出现了几次6点
- 据此定义合适的随机变量来解决问题
- 记事件A={投出6点}
- $P(A)=\frac{1}{6}$
- 🎆补充说明:🎈需要分清楚一个问题:
  - 投一次色子可能出现的结果有6中
    - 这是将观察的事件定义为:抛一次色子出现的点数
    - 结果数量为6,显然不是bernoulli概型
  - 如果将观察的事件定义为:抛一次色子,出现是否出现了6
    - 那么我们讲,试验的结果(样本空间大小为2,即,要么出现6,要么不是6)
    - 这就符合bernoulli概型
      - $并且,可以知道,这一基本事件发生的概率p=\frac{1}{6}$
        p是二项分布的参数之一
        另一参数是试验重复的次数n
定义随机变量: $设 X 为投掷色子 n 次出现 6 点的次数$
判断并确定随机变量的分布类型(或分布律): $那么X\sim B(n,p)$
- $其中p=\frac{1}{6}$
- 投n次至少得到一个6点的概率:
  - $P(X=1)=\binom{n}{1}p^1(1-p)^{n-1}=\frac{n\cdot 5^{n-1}}{6^n}$
- 至少得到一个6的概率可以表示为: $P(X\geqslant 1)$
  - $P(X\geqslant 1)=1-P(X=0)=1-\binom{n}{0}(\frac{1}{6})^0(1-\frac{1}{6})^n =1-(\frac{5}{6})^n$
- 如果希望保证以0.5的概率投出6,需要的次数n:
  - 6至少出现一次,随机变量X=1(次)
  - $P(X\geqslant1)\geqslant 0.5$
    - $1-(\frac{5}{6})^n\geqslant\frac{1}{2}$
    - $n\approx4$
  - 至少需要4次,才可以以0.5的概率投出6

例

设某事件,平均试验10次有2次发生(成功)
- 现在做了5次试验
- 在这5次中,成功0次的概率为?
  - 设随机变量X为:5次试验中,出现成功的次数
  - $p=\frac{1}{5}$
  - n=5
  - $X\sim B(5,\frac{1}{5})$
  - $P(X=0)=\binom{n}{0}(\frac{1}{5})^0(1-\frac{1}{5})^5=0.3277$
- 5次中,成功的次数为2或3次的概率?
  - $P(X=2\cup X=3)=P(X=2)+P(X=3)=0.2560$

例

已知500页的书有1000个错字
- 这些错字等可能地分布在每一页上
- 估计在给定页上至少出现3个错字的概率
设随机变量X为给定的一页错字数
- 设全书s个字,那么错字概率为1000/s?
  - 这个思路不对
- 应该是,一个错字出现在给定页上的概率为 $p=\frac{1}{500}$
  - 将1000个错字等概率的投放但500页中
  - 我们关心的则是投放到给定页的错字数目X
  - $每个错字出现在给定页上的概率为p=\frac{1}{500}$
  - $X\sim B(1000,\frac{1}{500})$
- $P(X\geqslant3)=1-P(X\leqslant 2) =1-\sum\limits_{k=0}^{2}\binom{1000}{k}(\frac{1}{500})^3(1-\frac{1}{500})^{1000-k}$
- 为了估算出上面的表达式,可以使用Possion定理

Possion定理

$当n重bernoulli试验中,n的增大,事件出现的概率p_n无限缩小$
$np_n\to\lambda(n\to +\infin)$
$\lim\limits_{n\to \infin}\binom{n}{k}p_n^k(1-p_n)^{n-k} =\frac{\lambda^k e^{-\lambda}}{k!}$

Possion近似

当 $n很大,p很小,\lambda=np大小适中$ 可以做如下近似处理
$\binom{n}{k}p_n^k(1-p_n)^{n-k} \approx\frac{\lambda^k e^{-\lambda}}{k!}$

🎈Possion分布

大量试验中的稀有事件的发生次数,近似的用Possion分布描述
$P(X=k)=\frac{\lambda^ke^{-\lambda}}{k!}$
- $k=0,1,\cdots$
- $常数\lambda>0$
- $X服从参数为\lambda的Possion分布:X\sim P(\lambda)$

例

设备维修问题
- 80台独立工作的机器,发生故障的概率均为0.01
- 每个人可以修一台机器
维修人员配备方案:
- 4个人,每人负责20台
  - 设,X为某个维护人员的20台机器中,同时出故障的机器的数量
  - 那么该维护人员无法及时维护(工作超负载)的概率表示为:
    - $X\sim B(20,0.01)$
    - $P(S)=P(X\geqslant 2)=1-(P(X=0)+P(x=1))=1-(0.99)^{20}-20(0.01)(0.99)^{19}=0.0169$
  - 设Y表示4个人中,工作超负载的人数
    - $Y\sim B(4,0.0169)$
    - 那么记A={4个人中,至少有一个人工作超负载},其概率为
      - 每个人超负载的概率均为: $p = 0.0169$
      - $P(A)=P(Y\geqslant 1)=1-P(Y=0) \\=1-\binom{20}{0}0.0169(1-0.0169)^{19} \\=1-P(S)(1-P(S))^{19} \\记T(S)=P(S)(1-P(S))^{19} \\\frac{T(S)}{P(S)}=(1-P(S))^{19}<1 \\T(S)<P(S) \\1-T(S)>1-P(S) \\而P(S)\approx 0.01 \\P(A)=1-T(S)>1-P(S)>P(S)$
- 3个人,共同负责80台
  - 设Z为80台机器中同时出现故障的机器数量
  - $Z\sim B(80,0.01)$
  - 3个人超负载的情况表示为
    - $P(Z\geqslant 4)=\sum\limits_{i=4}^{+\infin}\binom{80}{i}(0.01)^i(0.99)^{80-i}$
    - 利用Possion定理进行近似计算
    - 试取 $\lambda=np=80*0.01=0.8$