[傅里叶变换及其应用学习笔记] 十. 卷积与中心极限定理
这份是本人的学习笔记,课程为网易公开课上的斯坦福大学公开课:傅里叶变换及其应用。
中心极限定理(Central Limit Theorem)
中心极限定理,简称CLT。大多数概率事件,当有足够多的取样时,都服从高斯分布。(Most probabilities – some kind of average – are calculated or approximated as if they are determined by a Gaussian.)
标准正态(高斯)分布
在傅里叶变换中,我们用f=e−πt2作为标l准高斯函数,因为它的正逆傅里叶变换都是e−πt2。对中心极限定理来说,标准正态分布的密度函数(probability density function)是
p(x)=1√2πe−x22
采用这个式子作为标准正态分布的原因是它的均值(期望值)是0,它的标准差与方差为1。
对应地,概率函数为
Prob(a⩽
设有随机变量X,X为统称,X的实际测量值为x,x的概率密度函数记为p(x)。
对于任意x,都有
p(x) \geqslant 0
x在a到b之间的概率为
Prob(a \leqslant x \leqslant b) = \displaystyle{\int_a^b p(x)dx }
总概率为1
Prob(-\infty \leqslant x \leqslant \infty) = \displaystyle{\int_{-\infty}^{\infty}p(x)dx = 1 }
分布与卷积的关系
假设有两个独立的随机变量:x_1,x_2,其密度函数分别为p_1(x_1),p_2(x_2)。那么x_1+x_2的密度函数为p_{12}(x_{12}),它与p_1(x_1)、p_2(x_2)有什么关系呢?
求解过程如下:
设有任意变量t,x_1+x_2 \leqslant t的概率记为Prob(x_1+x_2 \leqslant t)。我们画以下坐标图像辅助分析
Prob(x_1+x_2 \leqslant t)意为坐标落在阴影部分的概率
Prob(x_x+x_2 \leqslant t) = \displaystyle{\iint_{x_1 + x_2 \leqslant t} p_1(x_1)p_2(x_2)dx_1dx_2 }
进行变量代换,令u=x_1,v=x_1+x_2,则
\left\{\begin{matrix} x_1 &= &u\\ x_2 &= &v - u\\ t &= &v \end{matrix}\right.
进行变量代换后,对应的新平面(u,v平面)如下
计算如下
\begin{align*} Prob(x_1+x_2 \leqslant t) &= Prob(v \leqslant t) \\ &= \int_{-\infty}^{\infty}\int_{-\infty}^{t}p_1(u)p_2(v-u)dudv \\ &= \int_{-\infty}^{t}\left( \int_{-\infty}^{\infty}p_1(u)p_2(v-u)du \right)dv \\ &= \int_{-\infty}^{t}(p_1 * p_2)dv \end{align*}
因此p_1 * p_2可当做x_1+x_2的密度函数。
结论:独立随机变量的和的密度函数为他们各自密度函数的卷积
p(x_1+x_2+…+x_n) = p_1*p_2*…*p_n
中心极限定理推导过程
设有n个随机独立变量x_1,x_2,…,x_n,他们满足下列条件
1. 有相同的密度函数:p_1=p_2=…=p_n=p(x)
2. 均值(期望值)为:\mu = \displaystyle{\int_{-\infty}^{\infty}xp(x)dx=0 }
3. 标准差为:\sigma = \displaystyle{\sqrt{\int_{-\infty}^{\infty}x^2p(x)dx } =1}
4. 概率的一般性质,总概率为:\displaystyle{\int_{-\infty}^{\infty}p(x)dx = 1 }
设S_n为这n个随机变量的和
S_n = x_1+x_2+…+x_n
S_n的密度函数为
p^{*n} = \underbrace{p*p*...*p}_n
S_n的均值为0,标准差为\sqrt{n},因此我们需要对它进行标准化(Normalization)。
标准化包括两个步骤:
1. 横轴缩放。标准化后密度函数为f(z),z = \frac{x-\mu}{\sigma},即x=\sigma z+\mu = \sqrt{n}z
2. 纵轴缩放。f(z) = \sigma f(x) = \sqrt{n} p^{*n}(x)
两个步骤合在一起,得到
f(z) = \sqrt{n} p^{*n}(\sqrt{n}z)
记标准化后的密度函数为
p_{normal}(x) = \sqrt{n} p^{*n}(\sqrt{n}x)
为了把卷积计算简化,需要引入傅里叶变换把卷积运算转换为乘法运算
\begin{align*} \mathcal{F}\left(\sqrt{n}(p^{*n})(\sqrt{n}x)\right) &=\sqrt{n}\cdot\frac{1}{\sqrt{n}}\left(\mathcal{F}(p^{*n})\right)(\frac{s}{\sqrt{n}})\quad Fourier\ Scaling\ Theorem\\ &=(\mathcal{F}(p^{*n}))(\frac{s}{\sqrt{n}})\\ &=(\mathcal{F} p)^n(\frac{s}{\sqrt{n}})\quad Fourier\ Convolution\ Theorem\\ &=\left(\int_{-\infty}^{\infty}e^{-2\pi i(\frac{s}{\sqrt{n}})x} p(x)dx\right)^n\\ &=\left(\int_{-\infty}^{\infty}\left(1-\frac{2\pi isx}{\sqrt{n}}+\frac{1}{2}\left(\frac{2\pi isx}{\sqrt{n}}\right)^2+...\right)p(x)dx\right)^n\quad Taylor \ Series\\ &=\left(\int_{-\infty}^{\infty}p(x)dx-\frac{2\pi is}{\sqrt{n}}\int_{-\infty}^{\infty}xp(x)dx-\frac{2\pi^2s^2}{n}\int_{-\infty}^{\infty}x^2p(x)dx+...\right)^n\\ &=\left(1-0-\frac{2\pi^2s^2}{n}+...\right)^n\\ &\approx\left(1-\frac{2\pi^2s^2}{n}\right)^n \end{align*}
当n \to \infty时,\lim_{n\to \infty}\left(1-\frac{2\pi^2s^2}{n} \right)^n \approx e^{-2\pi^2s^2},即
\mathcal{F}\left(\sqrt{n}(p^{*n})(\sqrt{n}x)\right) = e^{-2\pi^2s^2}
用傅里叶逆变换求出
p_{normal} = \mathcal{F}^{-1}(e^{-2\pi^2s^2}) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}
因此得出结论:
当n\to \infty,p_{normal}(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}。
其中n可以理解为某个独立随机变量连续测量的次数,当测量次数足够多时,其概率的密度函数会符合正态分布。这也就是我们所称的中心极限定理。
二项分布是正态分布的一个特殊情况,正态分布的随机变量是连续的,而二项分布的变量取值只有两项,是离散的。二项分布在我们的日常生活中比较常见。用游戏抽卡来举个例子,取值只有出货或者没出货两个。设n是某一个人抽卡的次数,如果n \to \infty,那么这个人抽卡出货的情况,呈二项分布。简而言之,假设有非常多的人在玩某个抽卡游戏,并且每个人的抽卡次数都非常多,那么大部分人抽卡的出货量会分布在期望值的近两侧,即亚洲人,少部分人是欧洲人或者非洲人,这种出货量的分布状况呈二项分布。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
2013-12-03 [flex & bison]编译器杂谈
2012-12-03 DMA