《计算机与人工智能应用数学》学习笔记

作业 50%,期中期末各 25%。

Lecture 1: Probability Theory Basics

概率空间 probablity space

随着概率问题变得越来越复杂,我们需要概率的精确的数学定义。

离散情况下,概率空间 P=(U,p) 由以下组成:

  • 样本空间 universe U 是非空有限集。
  • 概率函数 probability function p:U[0,1]xUp(x)=1

P 的一个 事件 event TU 的子集,T 的概率 Pr(T)=xTp(x)

三门问题 Monte Hall problem

一个经典问题。

一个门后有大奖,选定一个门之后会得知一个不是当前门的没有大奖的门。

  • 如果不切换,那么概率是一开始选中的概率 13
  • 如果在剩下两个门随机选,那么概率是 12
  • 如果切换,那么概率是一开始没选中的概率 23

在描述概率空间时需要小心:直觉有可能导致错误的结果!

基本计数规则 basic counting rule

生日悖论 birthday paradox

U={(x1,,xn)1xi365}T={(x1,,xn)jk,xj=xk}

q(n)=1i=0n1(1i365).

根据经典不等式 ex1x, x0 可知

q(n)1exp(n(n1)2×365)d(n).

d(n) 是对 q(n) 的良好近似。给定概率 0.5,计算 q(n)=0.5n 可以用 d(n)=0.5 近似。

exp(n(n1)2×365)=0.5,n(n1)2×365=ln2=0.69,x=2×365×0.69=22.44.

基本计数规则 basic counting rules:对于均匀的概率函数,Pr(T)=|T|/|U|。计算 Pr(T) 等价于计算 T 的大小。

  • 加法原理 addition rule:如果 SS1k 的无交并,则 |S|=i=1k|Si|
  • 乘法原理 multiplication rule:如果 S 的每个元素可以和 s=(i1,,im) 一一对应,其中 1ikck,则 |S|=c1m

37% 法则 the 37% rule

x 是均匀随机的 1n 的排列。在不知道之后的数的情况下依次决定每个数是否选择,最多选一个数,希望选中 n

策略 k:跳过前 k 个数,选择第一个 xj 使得 xj>maxx1k。分析其概率:

  • (加法原理)设 T 是使得策略成功的排列,TjT 中使得 xj=n 的排列,则 TTk<jn 的无交并。
  • (乘法原理)使得 xj=n 的排列有 (n1)! 个,落在 T 中要求 maxx1j1=maxx1k,概率是 kj1

综上,

Pr(T)=j=kn1k(n1)!(j1)n!=kn(Hn1Hk1)knlnkn.

求导可知在 kn=1e 时最优,最优值为 1e=0.37

基本概率工具 essential probability tool

#1 布尔不等式 Bool's inequality, union bound:对有限多个事件 T,T1,,Tm,若 Ti=1mTi,则 Pr(T)i=1mPr(Ti)。若 Ti 两两无交且 TTi 的无交并,则不等式取等。

这些很简单的不等式可以给出很惊人的结论。

拉姆齐数 Ramsey number:点数不小于 R(r,s) 的图一定存在 r 个点的团或 s 个点的独立集。R(k)=R(k,k)

Ramsey 定理:对任意 k3,存在 N 使得对任意 N 个点的图,图上有大小为 k 的完全图或独立集。R(3)=6

作业:证明 R(k)(2k2k1)<4k。具体是先证明 R(r,s)R(r1,s)+R(r,s1) 然后归纳。

Theorem

R(k)2k/2.

Paul Erdos 1947.

Proof

n2k/2

对于大小为 k (k3) 的点集 V,在随机图上 V 形成完全图的概率为 2k(k1)/2。根据布尔不等式,至少存在一个完全图或独立集的概率不超过

(nk)×2×2k(k1)/22nkk!2k(k1)/222k2/2k!2k(k1)/2=2k/2+1k!<1.

概率方法 probabilistic method:通过概率分析而非显式构造来证明一个数学对象的存在性。由 Paul Erdos 创立。

#2a 条件概率 conditional probability:给定 T 之后 S 发生的概率称为 S 关于 T 的条件概率。

Pr(ST)={Pr(ST)/Pr(T),Pr(T)0;0,Pr(T)=0.

在逻辑上,Pr(ST)Pr(ST) 经常写为 Pr(ST)Pr(ST)

#2b 链式法则 chain rule

Pr(ST)=Pr(T)Pr(ST).

Pr(S1Sm)=1jmPr(SjS1Sj1).

将链式法则应用在生日悖论上:设 Sj 是所有 xjx1j1x 的集合。

分配律 distributive law:设 TW1Wm,那么

Pr(T)1jmPr(Wj)Pr(TWj).

Wj 两两无交,则不等式取等。注意这里不要求 T 是它们的无交并。这是加法原理和乘法原理的推广。

Lecture 2: Statistics on a Probability Space

条件概率(续)conditional probability continued

两个事件 S,T 相互 独立 independent,若 Pr(ST)=Pr(S)。即 Pr(ST)=Pr(S)Pr(T)。也就是说,S,T 之间,一个事件发生不会影响另一个事件发生的概率。

SnSn1S1 时,

Pr(Sn)=Pr(S1)i=2nPr(SiSi1).

排列的环长 cycle length in a permutation

Li(σ) 表示 σ 的包含 i 的环长。注意到

Pr(L1>sL1>s1)=nsns+1.

Pr(L1>0)=1。由链式法则,对任意 1sn

Pr(L1=s)=1n.

团的贪心算法 greedy clique algorithm

贪心地检查每个点能否和当前的团形成团。

A(G) 是最终得到的团,则对于随机图,

Pr(|A(G)log2n|log2log2n)=1o(1).

上界

在集合已经有 c 个元素时,新加入一个点的概率为 12c

K=log2n+log2log2n,设 Ti 表示第 K 个加入的点是 i 的事件,由分配律,

Pr(|A(G)|>K)=i=2nPr(Ti)Pr(|A(G)|>KTi).

考虑到

Pr(|A(G)|>KTi)ni2Kn2K=1log2n,

于是

Pr(|A(G)|>K)1log2ni=2nPr(Ti)1log2n=o(1).

上界的 log2n+f(n) 中,f(n) 可以是增长任意缓慢的函数,只要 f(n)+

下界见本章最后。

N 门问题 n doors problem

每个人只允许打开 n2 扇门。

一个人的成功概率是 12,但是两个人都成功的概率可以大于 14。策略:两个人事先约定门的排列 σ,每个人从自己对应的门开始找。成功的概率是两个人的宠物所在环长均不超过 12 的概率,是 38

所有人都成功的概率等于没有环长超过 12 的概率,使用组合数学得到 1(HnHn/2)=1ln231%

随机变量 random variable

一个 随机变量 是一个函数 X:UR。它的 期望 expectation E[X]=uUp(u)X(u)

定义期望的和 Z=aX+bYZ(u)=aX(u)+bY(u)

#3 期望的线性性 law of linear expectation:若 X=i=1nCiXi,则

E[X]=i=1nCiE[Xi].

环的个数的期望 expected number of cycles

X 表示环的数量,则 X=i=1n1Li(σ)。由期望的线性性,

E[X]=nE[1Li]=ni=1n1n1i=Hn.

条件期望 conditional expectation

E[XT]=uTp(u)X(u)Pr(T).

#4 期望的分配律 distributive law for expectation:设 UW1,,Wn 的无交并,则

E[X]=i=1nPr(Wi)E[XWi].

几何分布的期望 mean of the geometric distribution

抛掷一枚正面概率为 p 的硬币,设 X 是第一次抛出正面的次数。

E[X]=p+(1p)(1+E[X])E[X]=1p.

随机变量 X方差 variance

Var(X)=E[(XE[X])2]=E[X2]E[X]2.

标准差 standard deviation

σ(X)=Var(X).

因此方差通常也写作 σ2

几何分布的方差 variance of the geometric distribution

E[X2]=p+(1p)E[(1+X)2]σ2(X)=1pp2.

X,Y独立随机变量 independent random variable,若

Pr(X=xY=y)=Pr(X=x)Pr(Y=y).

此时

E[XY]=E[X]E[Y],σ2(X+Y)=σ2(X)+σ2(Y).

方差衡量了随机变量的分散程度。

尾部估计 tail estimate

概率工具其五。

马尔可夫不等式 Markov's inequality

X 是非负随机变量。对任意 c>0

Pr(X>cE[X])<1c.

Proof

E[X]>Pr(X>cE[X])cE[X]

另一种形式为

Pr(X>c)<E[X]c.

切比雪夫不等式 Chebyshev's inequality

Pr(|XE[X]|>cσ(X))<1c2.

Proof

|XE[X]| 使用 Markov 不等式,得到

Pr(|XE[X]|>cσ(X))=Pr((XE[X])2>c2σ2(X))<1c2.

界不是很紧,但适用范围非常广泛。

团的贪心算法的下界 lower bound of the greedy clique problem

Xj 表示第 j 个加入的结点编号,Yj=Xj+1Xj

Observation

Yj 是概率为 bj=12j 的几何分布。

E[Yj]=2j,σ2(Yj)=1bjbj2=4j2j.

K=log2nlog2log2n,那么问题等价于

Pr((Xj=1KYj)n1)=1o(1).

根据期望的线性性,

E[X]=j=1K2j=21+K22nlog2n.

因为 Y 是独立随机变量,所以

σ2(E)=j=1K(4j2j)=43(4K1)2(2K1)2(nlog2n)2.

X>n1,那么 XE[X]>n2。于是

Pr(Xn1)Pr(XE[X]>n2).

由 Chebyshev 不等式,

Pr(XE[X]>n2)4σ2(X)n28(log2n)2.

Lecture 3: Tail bounds continued

切比雪夫不等式 Chebyshev's inequality

使用 Chebyshev 不等式时,需要计算 E[X]σ(X)=E[X2]E[X]2E[Xk] 称为 k 阶矩 the k-th moment

随机图的最大团(下界) largest clique of a random graph (lower bound)

m=(2ε)log2nM 是所有大小为 m 的子集。

对每个 VM 设随机变量 AAV(G)=1 当且仅当 V 是团。考虑 X=VMAV(G)T 表示 w(G)m,则 Pr(T)=Pr(X>0)

考虑以下两个命题:

  1. n+ 时,E[X]
  2. σ2(X)=E[X]2o(1)

若命题成立,则根据 Chebyshev 不等式,

Pr(X0)Pr(|XE[X]|>12E[X])σ2(X)14E[X]2=o(1).

Proof (2)

|VV|=1AVAV 是独立的。于是

σ2(X)E[V,VAVAV]|VV|1E[AV]E[AV]=E[VAV+|VV|>1AVAV]E[X]+2km|VV|=kE[AVAV]=E[X]+2km|VV|=kPr(AV=1AV=1)Pr(AV=1)=E[X]+2kmVPr(AV=1)(nk)(nmmk)2(m2)(k2)=E[X]+E[X]2km(nk)(nmmk)2(m2)(k2)E[X]+64m5nE[X]2.

其中最后一步用到引理(作业)

2km(nk)(nmmk)2(m2)(k2)m5nm+1E[X].

m2log2n,所以 (2) 成立。

概率估计的几何解释

设随机变量 X=i=1nXi,其中 Xi 分别有 12 的概率等于 01

计算得 E[X]=n2σ(x)=σ2(Xi)=n2。使用 Chebyshev 不等式,

Pr(|Xμ|10σ)1100.

如果使用 Markov 不等式,则会得到很差的结果,因为标准差和均值不在同一个数量级。

考虑 f(x)=1(xa),则 Pr(Xa)=E[f(x)]。考虑 g(x)f(x),则

Pr(Xa)=E[f(x)]E[g(x)].

如果 g(x) 是一个方便计算期望的函数,那么我们就得到了 Pr(Xa) 的一个估计。

g(x)=xa 时,得到 Markov 不等式:

Pr(Xa)E[g(x)]=E[x]a.

g(x)=(xμ)2(μa)2 时,得到 Chebyshev 不等式:

Pr(Xμ+cσ)E[g(x)]=E[(xμ)2](μ(μ+cσ))2=σ2c2σ2=1c2.

现在我们考虑更激进的估计方法:指数函数。

切诺夫界 Chernoff bound

因为 f(x)xa 时等于 1,所以指数上 x 的系数必须是正数。考虑到 g(a)=1 的条件,g(x)=et(xa),其中 t 是待定系数。另一种解释是使用 Markov 不等式

Pr(Xa)=Pr(eXea)E[etX]eta.

t=0 时得到 Pr(Xa)1,没有用。t+ 时,xa 的部分又会增长太快导致估计得不好。我们要找到最好的 t 使得 E[g(x)] 最小。

切诺夫界 Chernoff bound:设随机变量 X=i=1nXi,其中 Pr(Xi=1)=biPr(Xi=0)=1bi,则

Pr(X(1+δ)μ)exp(δ22+δμ), δ>0.Pr(X(1δ)μ)exp(δ22μ), 0<δ<1.

Proof

a=(1+δ)μ

由 Markov 不等式,

Pr(X>(1+δ)μ)E[etX]et(1+δ)μ.

根据经典不等式 1+xex

E[etX]=etXi=(1bi+biet)exp(bi(et1))=exp((et1)bi)=exp((et1)μ).

最小化 (et1)μt(1+δ)μ,得到 t0=ln(1+δ),所以

Pr(X>(1+δ)μ)(eδ(1+δ)(1+δ))μ.

根据 ln(1+x)2x2+x 得到

δln(1+δ)(1+δ)δ22+δ.

于是

Pr(X>(1+δ)μ)exp(δ22+δμ).

类似可以证明

Pr(X<(1δ)μ)(eδ(1δ)(1δ))μexp(δ22μ).

δ=101n,则当 n+ 时,

Pr(X>μ+10σ)=Pr(X>(1+δ)μ)exp(δ2n5)e20.

Corollary 1

Corollary 2

c>7E[X] 时,

Pr(X>c)<2c.

Chernoff 界的平均值形式:对于 X=1nXμ=μn,有

Pr(|Xμ|ε)=Pr(|Xμ|nε)2exp((nεμ)2μ2+nεμ)2exp(nε22+ε).

其中最后一个不等号成立是因为 μn。常数 2 是对两侧分别使用 Chernoff 界得到的。

霍夫丁不等式 Hoeffding's inequality:设 Xi[a,b] 是有界随机变量,则对任意 t0

Pr(XE[X]t)exp(2nt2(ba)2).

还讲了一个关于鞅的 Azuma 不等式。

LAZYTAG

Lecture 4: Advanced Applications

extropy

信息熵 是定量化地描述随机性的工具。随机变量 X 的熵定义为

H(X)=xPr(X=x)log2Pr(X=x).

X 是二元随机变量时,设 p=Pr(X=1),则

H(X)=H(p)=plog2p(1p)log2(1p)

接下来主要研究二元随机变量。

熵和二项系数 entropy and binomial coefficients

nq 是整数。

2nH(q)n+1(nnq)2nH(q)

Proof

对于上界,直接二项展开。

(nnq)qqn(1q)(1q)n=2qnlog2q(1q)nlog2(1q)=2nH(q)

对于下界,考虑相邻两个二项系数的差,则

(nk)qk(1q)nk(nk+1)qk+1(1q)nk1=(nk)qk(1q)nk(1q1qnkk+1)

可知当 knq1+q 时差非负,所以当 k=nq 时取到最大值,其大于平均值 1n+1,再使用类似上界的方法即可。

熵衡量了多少 unbiased,独立的 bits 可以从随机变量中取出。

extraction function

Ext:X{0,1},Pr(Ext(X)=y|y|=k)=12k,Pr(|y|=k)>0.

Theorem

如果想保证均匀随机但如果映射到太长的序列,会导致总概率大于 1

Compression

将一个随机变量的结果压缩到更短的长度上,使得期望长度小于随机变量结果的长度,但不能有一个压缩是另一个压缩的前缀。Huffman tree

Com:{0,1}{0,1}

对于 p>1/2,对任意 δ>0,当 n 足够大时,存在 Com 使得期望长度不超过 (1+δ)nH(p),且对任意 Com 都有期望长度至少 (1δ)nH(p)

Shannon’s Theorem

the problem of reliable communication over a noisy channel.

p 的概率翻转。添加冗余。

(k,n)Enc:{0,1}k{0,1}n,Dec:{0,1}n{0,1}k

给定 n,找到最大的 k 使得成功概率不小于 1ε

香农定理k=n(1H(p))

对任意 δ,ε>0,当 n 足够大时,对任意 kn(1H(p)δ),存在 (k,n) 编码解码使得错误率不超过 ε

对任意 kn(1H(p)+δ),不存在 (k,n) 解码编码使得错误率不超过 ε

最简单的编码方式:对每个 2k 都有若干 Enc,考虑 Hamming distance。

c~i=ciz,则 z 分布在 np1 附近。

1ε/2 的概率,

(pγ)ndH(ci,c~i)(p+γ)n

Ring(ci)={c:|dH(ci,c)np|γn}

那么有 1ε/2 的概率 c~iR(ci).

Suci(C) 表示 c~iR(ci) 且对任意 jic~iR(cj)

我们希望 P(Suci(C)) 对每个 i 都很大。

Lemma

R(ci) 的大小不超过 2(H(p)+δ)n,其中当 n+δ0

作业,气笑了。

均匀随机选 c1cM,考虑不成功的概率,使用 union bound

{i,c~iR(ci)ij,c~iR(cj)}

Pr(c~iR(cj))=Vol(R)2n=2(H(p)+δ1)n

Pr(Fail)M2Pr()=22k+(H(p)1+δ)n+

小技巧:

  • 第一步:先选 2M 个,平均下来是好的。
  • 第二步:丢掉最差的那一半。

不要对所有 pair 都用 union bound,设 λi(C)=1P(Suci(C))

Lemma

E[λi(C)]ε

这里的期望对所有 iC

那么一定有一个 C 是好于平均的,即

1Mi=1Mλi(C)ε

于是让 C 只保留最好的那部分,即 λi 最小的那些,于是对任意 iλi(C)2ε

Hypercude networking routing problem

transmit message, a cable transmit 1 messgage in 1 sec

在超立方体上考虑问题。

rounting task 是一个排列。希望找到一个合理时间内能够完成的传输方式。

bit-fixing algorithm:找到第一个不同的位然后翻转。长度是 dH(i,σ(i))。指数级别的延时。

posted @ 2025-03-01 17:31  qAlex_Weiq  阅读(85)  评论(2编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具
· Manus的开源复刻OpenManus初探
点击右上角即可分享
微信分享提示