概率期望学习笔记
概率
样本、事件基本概念
在一次随机试验 E E 中可能发生的不能再细分的结果称为基本事件(或样本输出),记作 ω ω 。在随机试验 E E 中可能发生的所有样本输出的集合称为基本事件空间(或样本空间),记作 Ω Ω 。一次随机试验的结果一定是基本事件空间 Ω Ω 中的恰好一个元素。例如:随机试验 E E 是掷一次骰子,得到的点数为基本事件,则基本事件空间 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } Ω = { 1 , 2 , 3 , 4 , 5 , 6 } 。
随机事件(事件)是基本事件空间 Ω Ω 的子集,用大写字母表示。例如:随机试验 E E 是掷两次骰子,随机事件 A A 为“第二次点数是第一次的两倍”,则 A = { ( 1 , 2 ) , ( 2 , 4 ) , ( 3 , 6 ) } A = { ( 1 , 2 ) , ( 2 , 4 ) , ( 3 , 6 ) } 。
基本事件空间 Ω Ω 也是 Ω Ω 的子集,每次试验它必然发生,称为必然事件。空集 ∅ ∅ 也是 Ω Ω 的子集,每次试验它不可能发生,称为不可能事件。
事件的关系和运算
若 A A 发生必然导致 B B 发生,则称 B B 包含 A A 或 A A 是 B B 的子事件,记作 A ⊂ B A ⊂ B 。
若 A ⊂ B ∧ B ⊂ A A ⊂ B ∧ B ⊂ A ,则称 A A 与 B B 相等,记作 A = B A = B 。
定义两个事件 A , B A , B 的和事件 C C 为 A A 发生或 B B 发生,记作 C = A ∪ B C = A ∪ B 或 C = A + B C = A + B 。类似地可以定义多个事件的和事件。
定义两个事件 A , B A , B 的积事件 C C 为 A A 发生且 B B 发生,记作 C = A ∩ B C = A ∩ B 或 C = A B C = A B 。类似地可以定义多个事件的积事件。
定义两个事件 A , B A , B 的差事件 C C 为 A A 发生且 B B 不发生,记作 C = A ∖ B C = A ∖ B 或 C = A − B C = A − B 。易知 A − B = A − A B A − B = A − A B 。
若两个事件 A , B A , B 不可能同时发生,即 A B = ∅ A B = ∅ ,则称 A A 与 B B 互斥(或 A A 与 B B 为互斥事件,或 A A 与 B B 互不相容)。
称“A A 不发生”为 A A 的对立事件,记作 ¯ ¯¯ ¯ A A ¯ ,即 ¯ ¯¯ ¯ A = Ω − A A ¯ = Ω − A ,称 A A 与 ¯ ¯¯ ¯ A A ¯ 对立(或 A A 与 ¯ ¯¯ ¯ A A ¯ 互逆)。易知 A + ¯ ¯¯ ¯ A = Ω A + A ¯ = Ω ,A ¯ ¯¯ ¯ A = ∅ A A ¯ = ∅ ,¯ ¯¯ ¯ ¯ ¯¯ ¯ A = A A ¯ ¯ = A ,A − B = A ¯ ¯¯ ¯ B A − B = A B ¯ 。
设 A 1 , A 2 , ⋯ , A n A 1 , A 2 , ⋯ , A n 是一组事件,若它们两两互斥,且它们的和是整个基本事件空间 Ω Ω ,则称它们是 Ω Ω 的一个划分,并称它们是一个完备事件组。
事件运算有以下规则:
交换律:A + B = B + A A + B = B + A ,A B = B A A B = B A 。
结合律:( A + B ) + C = A + ( B + C ) ( A + B ) + C = A + ( B + C ) ,( A B ) C = A ( B C ) ( A B ) C = A ( B C ) 。
分配律:A ( B + C ) = ( A B ) + ( A C ) A ( B + C ) = ( A B ) + ( A C ) ,A + ( B C ) = ( A + B ) ( A + C ) A + ( B C ) = ( A + B ) ( A + C ) 。
对偶律:¯ ¯¯¯¯¯¯¯¯¯¯¯¯¯ ¯ A + B = ¯ ¯¯ ¯ A ¯ ¯¯ ¯ B A + B ¯ = A ¯ B ¯ ,¯ ¯¯¯¯¯¯ ¯ A B = ¯ ¯¯ ¯ A + ¯ ¯¯ ¯ B A B ¯ = A ¯ + B ¯ 。
可以证明多个事件时上面四个运算律依然成立。
事件的频数和频率
在相同条件下,重复进行 n n 次试验,事件 A A 发生的次数 n A n A 称为事件 A A 发生的频数,n A n n A n 称为事件 A A 发生的频率,记作 f n ( A ) f n ( A ) 。
频率满足下面三条性质:
非负性:f n ( A ) ≥ 0 f n ( A ) ≥ 0 。
规范性:f n ( Ω ) = 1 f n ( Ω ) = 1 。
有限可加性:若 A 1 , A 2 , ⋯ , A k A 1 , A 2 , ⋯ , A k 为两两互斥事件,则 f n ( k ⋃ i = 1 A i ) = k ∑ i = 1 f n ( A i ) f n ( ⋃ i = 1 k A i ) = ∑ i = 1 k f n ( A i ) 。
概率的统计定义和性质
在相同条件下,重复进行 n n 次试验,随着试验次数 n n 的增大,事件 A A 发生的频率 f n ( A ) f n ( A ) 在 [ 0 , 1 ] [ 0 , 1 ] 上某个值 p p 附近摆动,呈现出一定的稳定性,则称 p p 为 A A 在该条件下的概率,记作 P ( A ) = p P ( A ) = p 。
概率满足下面三条公理:
非负性:P ( A ) ≥ 0 P ( A ) ≥ 0 。
规范性:P ( Ω ) = 1 P ( Ω ) = 1 。
可列可加性:若 A 1 , A 2 , ⋯ A 1 , A 2 , ⋯ 为两两互斥事件,则 P ( + ∞ ⋃ i = 1 A i ) = + ∞ ∑ i = 1 P ( A i ) P ( ⋃ i = 1 + ∞ A i ) = ∑ i = 1 + ∞ P ( A i ) 。
概率满足下面的性质:
P ( ∅ ) = 0 P ( ∅ ) = 0 。
有限可加性:若 A 1 , A 2 , ⋯ , A k A 1 , A 2 , ⋯ , A k 为两两互斥事件,则 P ( k ⋃ i = 1 A i ) = k ∑ i = 1 P ( A i ) P ( ⋃ i = 1 k A i ) = ∑ i = 1 k P ( A i ) 。
P ( ¯ ¯¯ ¯ A ) = 1 − P ( A ) P ( A ¯ ) = 1 − P ( A ) 。
P ( A − B ) = P ( A ) − P ( A B ) P ( A − B ) = P ( A ) − P ( A B ) 。特别地,若 B ⊂ A B ⊂ A ,则有 P ( A − B ) = P ( A ) − P ( B ) P ( A − B ) = P ( A ) − P ( B ) 。
P ( A ) ≤ 1 P ( A ) ≤ 1 。
广义加法公式:P ( A + B ) = P ( A ) + P ( B ) − P ( A B ) P ( A + B ) = P ( A ) + P ( B ) − P ( A B ) 。
古典概型
如果随机试验 E E 满足:
有限性:试验可能的基本事件有有限个。
等可能性:试验中每个基本事件出现的可能性相等。
则称这种概率模型为古典概型。
对于古典概型中的事件 A A ,设 n n 为基本事件空间大小,m m 为 A A 包含的基本事件个数,则 A A 的概率定义为 P ( A ) = m n P ( A ) = m n 。
例如:随机试验 E E 是掷一次骰子,随机事件 A A 为点数不超过 2 2 ,则 n = 6 , m = 2 n = 6 , m = 2 ,所以 P ( A ) = 2 6 = 1 3 P ( A ) = 2 6 = 1 3 。
几何概型
如果随机试验 E E 满足:
无限性:试验可能的基本事件有无限个。
等可能性:试验中每个基本事件出现的可能性相等。
则称这种概率模型为几何概型。
对于几何概型中的事件 A A ,设 n n 为基本事件空间的测度(常为长度、角度、面积、体积等),m m 为 A A 包含的基本事件的测度,则 A A 的概率定义为 P ( A ) = m n P ( A ) = m n 。
例如:随机试验 E E 是在一个正方形内随机选一个点,随机事件 A A 为这个点在正方形的内切圆内,设正方形边长为 2 x 2 x ,则正方形的面积为 4 x 2 4 x 2 ,内切圆面积为 π x 2 π x 2 ,所以 P ( A ) = π x 2 4 x 2 = π 4 P ( A ) = π x 2 4 x 2 = π 4 。
条件概率
设 A , B A , B 是两个事件,且 P ( B ) > 0 P ( B ) > 0 ,则已知 B B 发生的条件下 A A 发生的概率为 P ( A ∣ B ) = P ( A B ) P ( B ) P ( A ∣ B ) = P ( A B ) P ( B ) 。
条件概率满足概率的三条公理,也是概率,因此满足概率的所有性质,另外有下列公式:
乘法公式:P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) 。更一般地,P ( A 1 A 2 ⋯ A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) ⋯ P ( A n ∣ A 1 A 2 ⋯ A n − 1 ) P ( A 1 A 2 ⋯ A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) ⋯ P ( A n ∣ A 1 A 2 ⋯ A n − 1 ) 。
全概率公式:设 A 1 , A 2 , ⋯ , A n A 1 , A 2 , ⋯ , A n 是 Ω Ω 的一个划分且都有正概率,B B 为一个事件,由它们两两互斥知它们在 B B 条件下也两两互斥,再由概率的有限可加性和乘法公式可知 P ( B ) = n ∑ i = 1 P ( A i B ) = n ∑ i = 1 P ( A i ) P ( B ∣ A i ) P ( B ) = ∑ i = 1 n P ( A i B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) 。特别地,当 n = 2 n = 2 时,记 A 1 = A , A 2 = ¯ ¯¯ ¯ A A 1 = A , A 2 = A ¯ ,则有 P ( B ) = P ( A ) P ( B ∣ A ) + P ( ¯ ¯¯ ¯ A ) P ( B ∣ ¯ ¯¯ ¯ A ) P ( B ) = P ( A ) P ( B ∣ A ) + P ( A ¯ ) P ( B ∣ A ¯ ) 。
贝叶斯定理:设 A 1 , A 2 , ⋯ , A n A 1 , A 2 , ⋯ , A n 是 Ω Ω 的一个划分且都有正概率,B B 为一个事件且有正概率,则有 P ( A i ∣ B ) = P ( A i B ) P ( B ) = P ( A i ) P ( B ∣ A i ) n ∑ j = 1 P ( A j ) P ( B ∣ A j ) P ( A i ∣ B ) = P ( A i B ) P ( B ) = P ( A i ) P ( B ∣ A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) 。
事件的独立性
若事件 A , B A , B 满足 P ( A ) = P ( A ∣ B ) P ( A ) = P ( A ∣ B ) ,则称 A A 与 B B 独立。
若 A A 与 B B 独立,由乘法公式知 P ( A B ) = P ( A ∣ B ) P ( B ) = P ( A ) P ( B ) P ( A B ) = P ( A ∣ B ) P ( B ) = P ( A ) P ( B ) 。
反之,若 P ( A B ) = P ( A ) P ( B ) P ( A B ) = P ( A ) P ( B ) ,由条件概率知 P ( A ∣ B ) = P ( A B ) P ( B ) = P ( A ) P ( B ) P ( B ) = P ( A ) P ( A ∣ B ) = P ( A B ) P ( B ) = P ( A ) P ( B ) P ( B ) = P ( A ) 。
综上,P ( A B ) = P ( A ) P ( B ) ⟺ P ( A ) = P ( A ∣ B ) P ( A B ) = P ( A ) P ( B ) ⟺ P ( A ) = P ( A ∣ B ) 。若 P ( A B ) = P ( A ) P ( B ) P ( A B ) = P ( A ) P ( B ) ,则 A A 与 B B 独立。
若事件 A , B , C A , B , C 满足 P ( A B ) = P ( A ) P ( B ) ∧ P ( B C ) = P ( B ) P ( C ) ∧ P ( A C ) = P ( A ) P ( C ) P ( A B ) = P ( A ) P ( B ) ∧ P ( B C ) = P ( B ) P ( C ) ∧ P ( A C ) = P ( A ) P ( C ) ,则称 A , B , C A , B , C 两两独立。
若 A , B , C A , B , C 两两独立,且 P ( A B C ) = P ( A ) P ( B ) P ( C ) P ( A B C ) = P ( A ) P ( B ) P ( C ) ,则称 A , B , C A , B , C 相互独立。
随机变量和期望
随机变量
随机变量是取值由随机事件决定的变量。
当随机变量 X X 取值 α α 的时候,也对应着一个基本事件的集合,因此 X = α X = α 也是一个事件。
我们记 X X 的取值范围为 I ( X ) I ( X ) 。
若随机变量 X , Y X , Y 满足 P ( ( X = α ) ( Y = β ) ) = P ( X = α ) P ( Y = β ) , ∀ α ∈ I ( X ) , β ∈ I ( Y ) P ( ( X = α ) ( Y = β ) ) = P ( X = α ) P ( Y = β ) , ∀ α ∈ I ( X ) , β ∈ I ( Y ) ,则称 X X 与 Y Y 独立。
类似于随机事件定义两两独立和相互独立。
期望的定义
如果一个随机变量的取值个数有限(如掷骰子),或可能的取值可以一一列举出来(如正整数),则称其为离散型随机变量。
一个离散型随机变量 X X 的数学期望是其每个取值乘以该取值对应概率的总和,记作 E ( X ) E ( X ) 。
E ( X ) = ∑ α ∈ I ( X ) α P ( X = α ) = ∑ ω ∈ S X ( ω ) P ( ω ) E ( X ) = ∑ α ∈ I ( X ) α P ( X = α ) = ∑ ω ∈ S X ( ω ) P ( ω )
其中 S S 是 X X 所在概率空间的样本集合。
如果一个随机变量的取值不可列(如实数),则称其为连续型随机变量。
假设一个连续型随机变量 X X 取值为 ξ ξ 的概率为 p ( ξ ) p ( ξ ) ,则定义其期望为:
E ( x ) = ∫ + ∞ − ∞ x p ( x ) d x E ( x ) = ∫ − ∞ + ∞ x p ( x ) d x
条件期望
设 A A 是事件,X X 是随机变量,且 P ( A ) > 0 P ( A ) > 0 ,则已知 A A 发生的条件下 X X 的期望为 E ( X ∣ A ) E ( X ∣ A ) 。
当 X , Y X , Y 均为离散型随机变量时,E ( X ∣ Y = β ) = ∑ α ∈ I ( X ) α P ( X = α ∣ Y = β ) = ∑ α ∈ I ( X ) α P ( ( X = α ) ( Y = β ) ) P ( Y = β ) E ( X ∣ Y = β ) = ∑ α ∈ I ( X ) α P ( X = α ∣ Y = β ) = ∑ α ∈ I ( X ) α P ( ( X = α ) ( Y = β ) ) P ( Y = β ) 。
当 X X 为连续型随机变量,Y Y 为离散型随机变量时,E ( X ∣ Y = β ) = ∫ I ( X ) α f X ( α ∣ Y = β ) d α E ( X ∣ Y = β ) = ∫ I ( X ) α f X ( α ∣ Y = β ) d α ,其中 f X ( ∗ ∣ Y = β ) f X ( ∗ ∣ Y = β ) 是给定 Y = β Y = β 下 X X 的条件概率密度函数。
期望的性质
期望的线性性:对于任意两个随机变量 X , Y X , Y (不要求独立),E ( X + Y ) = E ( X ) + E ( Y ) E ( X + Y ) = E ( X ) + E ( Y ) 。
积的期望:对于任意两个独立的随机变量 X , Y X , Y ,E ( X Y ) = E ( X ) E ( Y ) E ( X Y ) = E ( X ) E ( Y ) 。
全期望公式:对于随机变量 X , Y X , Y ,由全概率公式可以证明 E ( Y ) = ∑ α ∈ I ( X ) P ( X = α ) E ( Y ∣ X = α ) E ( Y ) = ∑ α ∈ I ( X ) P ( X = α ) E ( Y ∣ X = α ) 。
一些题目
讲了那么多理论知识感觉脑壳疼,来看几道题吧。
这是一道经典期望 DP。
设 d p u d p u 表示节点 u u 走到节点 n n 的路径总长度期望,初始时 d p n = 0 d p n = 0 。考虑建反图拓扑排序来倒推。
由期望的线性性,我们可以对每条边分别计算贡献,写出转移方程:d p u = 1 d u ∑ ( u , v , w ) ∈ E ( d p v + w ) d p u = 1 d u ∑ ( u , v , w ) ∈ E ( d p v + w ) 。最后 d p 1 d p 1 即为答案。
设 d p i d p i 表示已有 i i 个名字,要收集到 n n 个名字的期望次数。
有 n − i n n − i n 的概率收集到新名字,有 i n i n 的概率收集不到,列出方程:d p i = n − i n d p i + 1 + i n d p i + 1 d p i = n − i n d p i + 1 + i n d p i + 1 。
解方程得 d p i = d p i + 1 + n n − i d p i = d p i + 1 + n n − i ,代初始值 d p n = 0 d p n = 0 容易发现答案就是 n ⋅ ( n 1 + n 2 + ⋯ + n n ) n ⋅ ( n 1 + n 2 + ⋯ + n n ) 。
这个输出方式太阴间了(虽说不是很难写),出题人是不会有理数取模吗。。
首先开关的操作是诈骗,显然可以知道最少的操作步数,因为只有第 n n 个开关能控制第 n n 个灯,确认了第 n n 个开关是否操作后可以同理向前递推。
接下来就是另一个问题:需要操作 m m 步,等概率随机操作一次会产生影响,直到需要操作步数不超过 k k 。
我们设 d p i d p i 表示从还需要操作 i i 步变成还需要操作 i − 1 i − 1 步的期望操作次数,首先有 i n i n 的概率直接进行正确操作,其次剩余的 1 − i n 1 − i n 的概率会错误操作,这时候需要的操作次数变为了 i + 1 i + 1 ,需要先操作成 i i 再操作成 i − 1 i − 1 ,列出方程:d p i = i n + ( 1 − i n ) ( 1 + d p i + 1 + d p i ) d p i = i n + ( 1 − i n ) ( 1 + d p i + 1 + d p i ) 。
看着没法推,实际上把这个方程解出来问题就解决了,解得 d p i = 1 + n + ( n − i ) ⋅ d p i + 1 i d p i = 1 + n + ( n − i ) ⋅ d p i + 1 i 。根据题意累加一部分 d p d p 值即可,记得乘以 n ! n ! 。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现