S&P_01 概率空间和概率基本概念

对于随机试验，我们所关心的往往是与所研究的特定问题有关的某个或某些量，而这些量就是随机变量。当然，有时我们所关心的是某个或某些特定的随机事件。例如，在特定一群人中，年收入在万元以上的高收入者，以及年收入在3000元以下的低收入者，各自的比率如何？这看上去像是两个孤立的事件。可是，若我们引入一个随机变量

X = 随 机 抽 出 一 个 人 其 年 收 入

则X是我们关心的随机变量。上述两个事件可分别表示为

随机变量的基本性质

缩写	全拼	中文名	解释
CDF	Cumulative Distribution Function	累计分布函数	连续型和离散型随机变量都有，一般用
PDF	Probability Density Function	概率密度分布函数	连续型随机变量在各点的取值规律，用
PMF	Probability Mass Function	概率质量分布函数	离散随机变量在各特定取值上的概率
RVS	Random Variate Sample	随机变量的样本	从一个给定分布取样
PPF	Percentile Point Function	百分位数点函数	CDF的反函数
IQR	Inter Quartile Range	四分位数间距	25%分位数与75%分位数之差
SD	Standard Error	标准差	用于描述随机变量取值的集中程度
SEM	Standard Error of the Mean	样本均值的估计标准误差，简称平均值标准误差
CI	Confidence Interval	置信区间

03. 一维离散型随机变量及其Python实现

1. 伯努利分布

每种分布都是一种模型，都有其适用的实例。伯努利分布适合于试验结果只有两种可能的单次试验。例如抛一次硬币，其结果只有正面或反面两种可能；一次产品质量检测，其结果只有合格或不合格两种可能。

伯努利分布只有一个参数p，记做

2. 二项分布

如果把一个伯努利分布独立的重复n次，就得到了一个二项分布。二项分布有两个参数——试验次数

一个随机变量。随机变量

各次试验的条件是稳定的；
各次试验之间是相互独立的。

现实生活中有许多现象程度不同地符合这些条件，例如经常用来举例子的抛硬币，掷骰子等。如果每次试验条件都相同，那么硬币正面朝上的次数以及某一个点数出现的次数都是非常典型的符合二项分布的随机变量。均匀硬币抛1000次，则正面朝上的次数

3. 泊松分布

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数，电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。

泊松分布有一个参数

一个随机变量

4. 泊松分布与二项分布的关系

如果仅仅是看二项分布与泊松分布的概率质量分布图，也可以发现它们的相似度非常高。事实上这两个分布内在联系十分紧密。泊松分布可以作为二项分布的极限得到。一般来说，若

上面的图中二项分布的参数

从取值范围上来说：

二项分布的取值范围内为
泊松分布的取值范围为

当二项分布的参数

04. 一维连续性随机变量及其Python实现

1. 均匀分布

如果连续型随机变量

设通过某站的汽车10分钟一辆，则乘客候车时间
某电台每个20分钟发一个信号，我们随手打开收音机，等待时间
随机投一根针与坐标纸上，它和坐标轴的夹角

2. 指数分布

如果一个随机变量

指数分布只有一个参数

其实指数分布和离散型的泊松分布之间有很大的关系。泊松分布表示单位时间（或单位面积）内随机事件的平均发生次数，指数分布则可以用来表示独立随机事件发生的时间间隔。由于发生次数只能是自然数，所以泊松分布自然就是离散型的随机变量；而时间间隔则可以是任意的实数，因此其定义域是

表示独立随机事件发生的时间间隔，比如旅客进机场的时间间隔、中文维基百科新条目出现的时间间隔等；
在排队论中，一个顾客接受服务的时间长短也可以用指数分布来近似；
无记忆性的现象（连续时间）。

指数分布的一个显著的特点是其具有无记忆性。例如如果排队的顾客接受服务的时间长短服从指数分布，那么无论你已经排了多久时间的队，在排 t 分钟的概率始终是相同的。

3. 指数分布与泊松分布的关系

先总体上比较一下这两个分布：

在泊松分布中，时间是固定的(例如单位时间内)，研究的随机变量
在指数分布中，出现的次数是固定的（比如出现了1次），研究的是随机变量

已知泊松分布在时间

泊松过程中，第k次随机事件与第k+1次随机事件出现的时间间隔服从指数分布。而根据泊松过程的定义，我们定义

　　　　 $F (t) = P r (T \leq t) \dots (2)$

上式就等于，

F (t) = P r (T \leq t) = 1 - P r (T > t)

在长度为 t 的时间段内没有随机事件出现的概率，即时间间隔大于

　　　　 $P r (T > t) = P r (随机事件在时间 t 内出现了 0 次) = P r (X = 0) = \frac{e^{- λ t} (λ t)^{0}}{0!} = e^{- λ t} \dots (4)$

将上式带入 (3) 式就可以得到：

　　　　 $F (t) = 1 - e^{- λ t} \dots (5)$

这个式子就是指数分布的累积分布函数，对 (5) 式求导后，就可以得到指数分布的概率密度函数，同定义中给出的形式。

举一个例子来更好的理解指数分布和泊松分布之间的关系：

这个例子来源于泊松分布的wiki主页，一条河平均100年会有一次洪水泛滥，那么如何来求时间小于某个时间点，会有洪水发生的概率？

根据题意可得，如果将100年作为一个单位时间，那么

那么根据 (5) 式就可以计算出小于某个特定时间点，可能会发生洪水的概率。

下面是分别取

图4-1, 取每一百年不同的洪水泛滥次数，得到的以洪水泛滥发生时间为随机变量的CDF图

上图可以理解为，如果每100年发生洪水的次数越多（

蓝色线的概率取值几乎为1 ，表示如果100年内平均会发生5次洪水的情况下，250年内几乎肯定会发生至少一次洪水泛滥；
绿色线的概率大概为0.4，表示如果100年内平均发生0.2次，也就是说基本上500年才发生一次，那么250年内发生的概率就会比较小，但也不是不可能。

4. 正态分布

若随机变量 X 的概率密度符合下面的形式，就称 X 服从参数为

如果上面公式中

正太分布的密度函数的典型特征：

μ是曲线的对称点，它决定曲线的中心位置，称为位置参数。
函数f(x)在μ处达到最大值。f(μ)=1/(2∏*σ)^0.5
参数σ值越小，曲线显瘦，反之曲线显胖。称参数σ为形状参数。
当x趋于+-无穷时，limf(x)=0。
当μ=0，σ=1时，函数分布为标准正态分布。

正态分布中两个参数含义：

当固定
当固定

05. 随机变量的数字特征

1. 数学期望（Mathematical Expectation）

一个随机变量

例如，一个离散型随机变量

图1-1, 概率质量分布函数

那么根据定义，

数学期望的性质：

常见分布的期望:

0-1分布，
二项分布，
泊松分布，
几何分布，
均匀分布，
正态分布，
指数分布，

2. 方差（Variance）

一个随机变量

常见分布的方差

0-1分布，
二项分布，
泊松分布，
几何分布，
均匀分布，
正态分布，
指数分布，

期望，方差，数学期望，样本均值，样本方差之间的区别

样本均值：我们有n个样本，每个样本的观测值为Xi，那么样本均值指的是 1/n * ∑x(i)，求n个观测值的平均值
数学期望：就是样本均值，是随机变量，即样本数其实并不是确定的

　　　　PS：从概率论的角度而言：样本指的是我们现在有多少东西需要去观测，它是一种随机变量，即样本的多少是不确定的，我们得到的样本均值并不是真正意义上的期望。

期望：已知其观测值f（x）及其概率P，求其观测值与概率乘积的累加和，∑Xi*Pi

　　　　PS：期望是一种固定值，他的观测值是基于已知某几类数值及其概率，是不同于数学期望中的观测值Xi的，数学期望的观测值有一点取决于样本数量的味道，也就是求和这里的n其实是不同的

方差：

样本方差的计算：样本方差一般用

　　　　其中

　　　　从直观上来理解，由于样本方差中多了一个约束条件 —— 样本的均值是固定的，

　　　　这里的观测值减去的是均值！均值的意思就是原本物质所存在的均值，即 1/n * ∑x(i)，而实际上我们可以得知方差的求解应该减去的是期望E(X) 才对，其中的缘故在于我们并不能得知真正的期望是多少，只能通过随机变量的样本求得一个近似的值来预估期望，即利用下式来证明：，当theta值是样本均值的时候，该式值最小（每个值减他们总和的均值），那么同理返回样本方差的等式，上式最小意味着利用样本均值求解样本方差会把真实方差算小了，因此将N处理成N-1来增大样本方差的值引出两个结论：

　　（a）当分母为N-1的时候，是我们对方差做的一个无偏估计

　　（b）当分母为N的时候，是我们对方差做的一个极大似然估计
总结：　　

样本均值是数学期望，求的是n个观测值的平均值，而期望指的是观测值及其概率的乘积的累加和
在样本足够多的情况下，可以理解为样本均值趋近于期望E 即：1/n*∑x(i) ≈ ∑p(i)*x(i)
方差的本质是固定不变的，得到的是这个状态正儿八经与期望的偏差，
而样本方差是随机变量，得到的是也是一种偏差，只不过这种偏差是对正确偏差的一种估计值。

3. 矩

定义：若

若

根据定义，期望

4. 协方差和相关系数

4.1 协方差

协方差的计算公式可以化简为：

4.2 相关系数

5. 样本均值的期望和方差 https://www.cnblogs.com/Belter/p/7629105.html

概率统计与机器学习：期望，方差，数学期望，样本均值，样本方差之间的区别：

https://www.cnblogs.com/tlfox2006/p/9456130.html

06. 大数定律及中心极限定理

1. 大数定律：随着试验次数的增大，这个频率趋于真实概率的可能性趋于1。大数定律讲的是，样本容量极大时，样本的均值必然趋近于总体的期望。

举例：用random模块生成区间[0,1)之间的随机数，如果生成的数小于0.5，就记为硬币正面朝上，否则记为硬币反面朝上。由于random.random()生成的数可以看做是服从区间[0,1)上的均匀分布，所以以0.5为界限，随机生成的数中大于0.5或小于0.5的概率应该是相同的(相当于硬币是均匀的)。这样就用随机数模拟出了实际的抛硬币试验。理论上试验次数越多(即抛硬币的次数越多)，正反面出现的次数之比越接近于1(也就是说正反面各占一半).

图，随着实验次数的增加，正反面出现次数之比越来越接近于1

2. 中心定理：多重随机变量独立且服从0-1分布，当n趋向于无穷大是，多重随机变量联合分布服从正态分布。中心极限定理讲的是：样本容量极大时，样本均值的抽样分布趋近于正太分布。这和样本所属的总体的分布的类型无关，样本所属总体的分布可以是正态分布，也可以不是。

3. 中心定理推广：多重随机变量独立同分布，当n趋向于无穷大是，多重随机变量联合分布服从正态分布。

简单来说，大数定律（LLN）和中心极限定理（CLT）的联系与区别在于：

共同点：都是用来描述独立同分布（i.i.d）的随机变量的和的渐进表现（asymptotic behavior)
区别：首先，它们描述的是在不同的收敛速率（convergence rate）之下的表现，其次LLN前提条件弱一点：

07. 统计学中的基本概念

0. 概率论与数理统计的异同

概率论、数理统计都是研究随机现象的统计规律性的数学分支，但两者研究角度不同。

概率论：从已知分布出发，研究随机变量

数理统计：研究对象

1. 样本与总体

https://www.cnblogs.com/Belter/p/8029712.html

2. 统计量

统计量的概念存在于样本中，是对样本某个指标的概括，例如上面例子中选出来的100位学生的平均身高就是一个统计量。统计量区别于"个体量"（我自己生造的词），具有以下两个特点：

不包含任何未知数；
包含所有样本的信息。

因此只要样本确定，统计量的值就可以直接计算出来。例如一旦选定100位学生，他们的平均身高就可以计算出来。

2.1 常用统计量

2.2 从上面可以看到：样本的均值等于样本的1阶原点矩；但是样本的方差不等于样本的2阶中心距（在总体中这两者是相等的）；

用统计量估计总体的数字特征

当总体数字特征未知时，

用样本均值
用样本方差
用样本原点矩
用样本中心距

以上估计的理论基础就是大数定律。值得注意的是，总体的均值

3. 抽样分布

统计量的分布被称为抽样分布。

当总体

https://wenku.baidu.com/view/11d3577e5acfa1c7aa00cc9b.html

排列与元素的顺序有关，组合与顺序无关．如231与213是两个排列，2＋3＋1的和与2＋1＋3的和是一个组合．

(一)两个基本原理是排列和组合的基础

(1)加法原理：做一件事，完成它可以有n类办法，在第一类办法中有m1种不同的方法，在第二类办法中有m2种不同的方法，……，在第n类办法中有mn种不同的方法，那么完成这件事共有N＝m1＋m2＋m3＋…＋mn种不同方法．

(2)乘法原理：做一件事，完成它需要分成n个步骤，做第一步有m1种不同的方法，做第二步有m2种不同的方法，……，做第n步有mn种不同的方法，那么完成这件事共有N＝m1×m2×m3×…×mn种不同的方法．

这里要注意区分两个原理，要做一件事，完成它若是有n类办法，是分类问题，第一类中的方法都是独立的，因此用加法原理；做一件事，需要分n个步骤，步与步之间是连续的，只有将分成的若干个互相联系的步骤，依次相继完成，这件事才算完成，因此用乘法原理．

这样完成一件事的分“类”和“步”是有本质区别的，因此也将两个原理区分开来．

(二)排列和排列数

(1)排列：从n个不同元素中，任取m(m≤n)个元素，按照一定的顺序排成一列，叫做从n个不同元素中取出m个元素的一个排列．

从排列的意义可知，如果两个排列相同，不仅这两个排列的元素必须完全相同，而且排列的顺序必须完全相同，这就告诉了我们如何判断两个排列是否相同的方法．

(2)排列数公式：从n个不同元素中取出m(m≤n)个元素的所有排列

当m＝n时，为全排列Pnn=n(n－1)(n－1)…3·2·1＝n！

(三)组合和组合数

(1)组合：从n个不同元素中，任取m(m≤n)个元素并成一组，叫做从 n个不同元素中取出m个元素的一个组合．

从组合的定义知，如果两个组合中的元素完全相同，不管元素的顺序如何，都是相同的组合；只有当两个组合中的元素不完全相同时，才是不同的组合．

(2)组合数：从n个不同元素中取出m(m≤n)个元素的所有组合的个

这里要注意排列和组合的区别和联系，从n个不同元素中，任取m(m≤n)个元素，“按照一定的顺序排成一列”与“不管怎样的顺序并成一组”这是有本质区别的．