概率论与数理统计

img

第一章 概率论的基本概念

一、概率的定义和性质

1、定义

满足下列条件的试验称为随机试验:

  • 可以在相同的条件下重复地进行;
  • 每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果;
  • 进行一次试验之前不能确定哪一个结果会出现。

样本点:随机试验的每一个可能结果称为样本点。

样本空间S: 所有样本点全体组成的集合称为样本空间。

随机事件:样本空间S的子集称为随机事件,通常用大写字母A,B,C等表示。

2、事件的关系及运算

事件的关系及运算:(如果理解不了,去搜韦恩图表示)

  • A包含B: AB
  • A与B相等: A=B
  • A与B的和: AB
  • A与B的积: ABAB
  • A与B的差: AB
  • A与B互斥: AB=
  • A的对立事件: A¯

事件运算的性质:

交换律:

img

结合律:

img

分配律:

img

德摩根律:(长杠变短杠,开口变方向)

img

3、概率和频率的定义

频率:在相同条件下,n次试验中,事件A发生的次数,nA/n 称为事件A发生的频率

概率:E是随机试验,S是样本空间。对于E的每一事件赋予一个实数,记 P(A),称为事件A的概率。

二、古典概型和几何概型

1、古典概型

引例:张三李四比赛猜拳,谁先赢10局谁就获得1000元。当比分8:7时,中止比赛,按当前结果如果分配这笔奖金?

解答:按8:7或3:2分配都不合理。比赛最多进行4局分成胜负,按照4局计算所有可能结果,最后结果是11:5

img

定义:一个试验的样本点有限,并且每个样本点出现的可能性相等,那么这个试验就是古典概型,比如仍骰子。

2、几何概型

定义:如果试验是从某一线段(平面、空间)上取一点,并且所取的点在该线段(平面、空间)内的可能性相同,那么这个试验就是几何概型。

三、条件概率

条件概率P(B|A)表示已知事件A发生的情况下,事件B发生的概率:

img

四、全概率公式与贝叶斯公式

韦恩图:B是完备事件组,所有B事件组成样本空间。

img

全概率公式用法:有完备事件组(如图中事件B),并且知道事件A与完备事件组B的条件概率,那么就可以求事件A发生的概率。

全概率公式:

img

贝叶斯公式用法:有完备事件组(如图中事件B),并且知道事件A与完备事件组B的条件概率,那么就可以求事件B基于事件A的条件概率。

贝叶斯公式:

img

五、事件的独立性

设A,B是两个事件,如果满足:

img

则称事件A,B相互独立。

第二章 随机变量及其分布

一、定义

1、随机变量

定义:随机变量 X 是定义在随机试验样本空间 S={e} 上的单实值函数,记为 X=X(e)

笔记:随机变量是为了数值化表示,这样更方便数学研究。X 相当于样本空间,x 相当于样本点。

2、分布律和概率分布密度

离散型随机变量X的所有可能取值为 xk(k=1,2,3,...) ,X取到各个可能值的概率 P(X=xk)=pk ,称为随机变量X的概率论分布,也叫分布律。

举例:骰子每面发生的概率

img

连续型随机变量X在任意位置的概率若为 f(x)=P(X=x),则称 f(x) 为随机变量X的概率分布密度。

举例:你7:00-9:00起床的概率

img

3、分布函数

F(X)=P(X<=x),称随机变量X的分布函数。分布函数表示将随机变量X<=x的所有取值的概率相加。

分布函数和概率密度的关系:

  1. F(x2)F(x1)=x1x2f(x)dx=P(x1<=X<=x2)
  2. F(x)=xf(t)dt

笔记:分布函数、概率密度 都是为了更方便研究,从不同角度定义的两个函数。

二、离散型随机变量及其分布

1、0-1分布

随机试验的结果只有两个,随机变量X只有两个可能取值0或1,其分布律可以写成:

img

也可以写成:

img

2、二项分布

只有两个结果的随机试验成为伯努利试验,独立重复n次,称为n重伯努利试验。(0-1分布是一次伯努利试验)

假设单独一次试验A发生的概率为p,不发生的概率为q(q=1-p),则n次试验中A发生k次的概率为:

img

我们把n重伯努利试验中A发生的次数,这个随机变量服从的分布称为二项分布,记 B(n,p)

3、泊(po)松分布

泊松分布(Poisson distribution)适合于描述单位时间(空间)内随机事件发生的次数。如加油站一个小时内到达的车辆数,一个医院一天内出生的新生儿的数量等等。

泊松分布的分布律:

img

其中 λ>0 是一个常数,表示单位时间(空间)内随机事件发生的平均次数;k是次数。XP(λ) 表示随机变量X服从参数为 λ 的泊松分布。

泊松定理:

λ>0 是一个常数,n是任意正整数,设 npn=λ,则对于任一固定的非负整数k,有

img

这个定理告诉我们:如果随机变量 XB(n,p),当n很大,p很小时,X近似服从参数 λ=np 的泊松分布,即

img

三、连续型随机变量及其概率密度

1、均匀分布

若连续型随机变量X具有概率密度

img

则称随机变量X服从均匀分布,记 XU(a,b) 。X的分布函数为

img

2、指数分布

若连续型随机变量X具有概率密度

img

其中 θ>0 为常数,则称X服从指数分布,记 XE(λ) 。 X的分布函数为:

img

笔记:

  • 泊松分布:医院一天内出生新生儿的数量,λ表示一天内平均出生的数量。
  • 指数分布:两个新生儿出生的时间间隔,1λ 表示两个新生儿出生的平均间隔。

3、正态分布

正太分布(Normal distribution),也叫常态分布,高斯分布。

若连续型随机变量X具有概率密度:

img

其中 μ,σ为常数,则称X服从参数为μ,σ的正态分布,记XN(μ,σ2)

XN(0,1) ,称X服从标准正态分布,有概率密度:

img

第三章 多维随机变量及其分布

1、二维离散型随机变量

二维离散型随机变量的概率分布(联合分布律):

img

二维离散型随机变量的分布函数:

img

二维离散型随机变量的边缘分布函数:

img

img

独立性:

img

2、二维连续型随机变量

二维连续型随机变量的联合分布函数:

img

其中,f(x,y) 是二维连续型随机变量的概率分布函数。

二维连续型随机变量的边缘分布函数:

img

img

独立性:

img

第四章 随机变量的数字特征

1、数学期望

数学期望:随机变量由概率加权的平均值

离散型随机变量的数学期望:

img

连续型随机变量的数学期望:

img

2、方差

方差:偏差平方的概率加权平均值,衡量平均偏离程度(稳定性)

img

标准差或均方差:

img

切比雪夫不等式:

设随机变量X,其均值和方差都存在,对任意ϵ>0 均有:

img

笔记:切比雪夫不等式描述了,在只知道均值和方差的情况下,可以大概知道该点落在某个区间内的概率。

3、协方差及相关系数

协方差:描述二维随机变量X,Y的线性相关性。

(X,Y) 是二维随机变量,且EX和EY都存在,X和Y的协方差记作:
img

相关系数:由于协方差受量纲(单位)的影响特别严重,如果将每个维度标准化,再计算协方差,通过推理,其结果就是相关系数:

img

问题1:怎么标准化?

如果这些数据都符合正态分布 XN(μ,σ2) ,其中均值等于μ,方差等于σ2。标准化过程是:

img

问题2:从协方差到相关系数的推理过程?

img

4、矩、协方差矩阵

第五章 大数定律及中心极限定理

一、大数定律

大数定理讲了什么:在样本足够多的情况下,随机变量序列的均值收敛于真实的均值;随机事件发生的概率收敛于真实的概率。

大数定理和中心极限定理为什么有很多条:就像0-1分布和伯努利分布,只有一个统一的定律,其它都是在特殊情况下的变种,这些变种是由不同的人发现的。

辛钦大数定律是切比雪夫大数定律的特殊情况;伯努利大数定律是辛钦大数定律的特殊情况。

img

二、中心极限定理

中心极限定理讲了什么:无论随机变量服从什么分布,在试验足够多的情况下,它们的算术平均值(如平均身高、平均寿命)都近似服从正态分布。当然,在经过标准化,近似服从标准正态分布。

重点理解:这里不是说X服从正态分布,而是在说 抽样分布 近似服从 正态分布。

什么是抽样分布:如随机抽100人计算平均身高为175,如果再进行类似的9次抽样调查,会得到10组平均身高。根据中心极限定理,这10组抽样的分布服从正态分布,所以我们就不会担心源数据具体是什么分布,都能计算出样本的相关统计量(均值和方差)。

具体数学公式就不列了,就像大数定律,这些公式平常用不到。

数理统计

科学研究有两种逻辑思维方法:

  • 演绎法(deduction):从一条公理出发进行推演分析
  • 归纳法(induction):从大量经验事实中总结出最接近本质的原理

概率论是演绎法,已知随机变量的分布,去研究问题。

数理统计是归纳法,通过大量试验总结规律。

数理统计的分类:

  • 描述统计学:对随机现象进行观测、试验,以取得有代表性的观测值。如抽样方法、试验设计。
  • 推断统计学:对已取得的观测值进行整理、分析,作出推断、决策,从而找出所研究的对象的规律性。参数估计、假设检验、方差分析、回归分析。

第六章 样本及抽样分布

一、随机样本

样本基本概念:

  • 总体:试验的全部可能观测值,即随机变量X
  • 个体:每一个可能的观测值
  • 总体容量:总体中包含的个体的数量
  • 抽样调查:从总体中随机抽取一部分个体观测结果
  • 样本定义:设总体X是具有分布函数F的随机变量,若 X1,X2,...,Xn是与X具有同一分布函数且相互独立的随机变量,则称X1,X2,...,Xn为从总体X得到的容量为n的简单随机样本,简称样本。它们的观测值x1,x2,...,xn称为样本值。

二、抽样分布

通过样本观察值我们可以获得一些数据,通过对这些数据进行加工处理,可以对总体进行有效的统计推断。这个加工的过程通常就是对样本构造适当的函数。比如我们求样本的平均值,来推断总体的平均值。而这个构造出来的样本的函数我们称为统计量。

统计量是样本的函数,而样本是随机向量,故统计量也是随机变量,统计量的概率分布称为抽样分布。

统计量:样本的函数,不含未知参数。

定义:设X1,X2,...,Xn是来自总体X的一个样本,g(X1,X2,...,Xn)X1,X2,...,Xn的函数,若g中不含未知的参数,则称g(X1,X2,...,Xn)是一个统计量。

常用的统计量:

img

三、三大抽样分布

什么是抽样分布:如随机抽100人计算平均身高为175,如果再进行类似的9次抽样调查,会得到10组平均身高。根据中心极限定理,这10组抽样的分布服从正态分布,所以我们就不会担心源数据具体是什么分布,都能计算出样本的相关统计量(均值和方差)。

首先要明确的是,所有分布的前提是所收集的样本要服从正态分布,这需要首先进行正态分布的拟合检验,即使是大样本的情况下,样本正态的情况下分析的结论也会更严谨。

抽样分布可以分为两类:一类是关于均值的分布:正态分布和t-分布;另一类是关于方差的分布:
X-分布和F-分布。

1、卡方分布

定义:设 X1,X2,...,Xn 相互独立且均来自总体 XN(0,1) ,则称统计量

img

服从自由度为n的 X2 分布,记 X2X2(n)

2、t 分布

为什么叫t分布?因为作者发表文章的笔名叫"Student"

定义:设 XN(0,1)YX2(n) ,且X,Y相互独立,则称统计量

img

服从自由度为n的 t 分布,记 tt(n)

3、F 分布

定义:设 UX2(n1)VX2(n2) ,且U,V相互独立,则统计量

img

服从自由度为 (n1,n2) 的F分布,记 FF(n1,n2)

第七章 参数估计

判断了分布类型后,总体分布中会有一些未知参数,需要用到参数估计的方法:点估计和区间估计。

一、点估计

设总体X的分布函数F(x;θ)的形式已知,θ是待估计参数。X1,X2,...,Xn是X的一个样本,x1,x2,...,xn是相应的一个样本值。点估计就是要构造一个适当的统计量θ^(X1,X2,...,Xn),用它的观察值θ^(x1,x2,...,xn)\theta$的近似值。我们称

θ^(X1,X2,...,Xn)θ 的估计量,θ^(x1,x2,...,xn)θ 的估计值。

点估计的两种方法:矩估计和最大似然估计。

1、矩估计

用样本矩 估计 总体矩。这里主要是用样本的一阶原点矩(样本均值)来估计总体均值(数学期望)。

2、最大似然估计

最大似然估计的思想是:如果一次试验的结果是A发生了,那么有理由相信A发生的概率就是最大的。因此我们求什么参数取什么值时,这个样本出现的概率最大,就用这个取值作为参数的估计值。

二、区间估计

点估计是对参数估计一个具体的值,而区间估计是对未知参数估计出一个范围。这里主要是对总体的均值和方差进行估计。

主体思想是通过从总体抽取的样本,根据一定的准确度要求,构造出合适的区间,以此作为参数真实值的估计区间。

第八章 假设检验

参考资料

《概率论与数理统计》内容讲解视频
https://www.bilibili.com/video/BV15o4y1R74P?p=22&spm_id_from=pageDriver&vd_source=c680aab5d5ef234c75928d8686b004a5

《概率论与数理统计》知识点总结
https://blog.csdn.net/Aliy66/article/details/123661773

抽样分布有什么用
https://zhuanlan.zhihu.com/p/25250959

posted @   明日盈盈  阅读(170)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示