定理：任意的PSD的Toeplitz矩阵\(\boldsymbol T(\boldsymbol u) \in \mathbb C^{N \times M}\)(秩\(r \leq N\))有如下分解：

\[\boldsymbol T(\boldsymbol u) = \sum_{k=1}^r p_k \boldsymbol a(f_k)\boldsymbol a^{\mathrm H}(f_k) = \boldsymbol A(\boldsymbol f) \mathrm{diag}(\boldsymbol p) \boldsymbol A^{\mathrm H}(f) \tag{5-68} \]

其中，\(p_k > 0\)且\(f_k \in \mathbb T, k=1,2,\cdots, r\)。若秩\(r<N\)，则分解是唯一的。

推论：任意的PSD的Toeplitz矩阵\(\boldsymbol T(\boldsymbol u) \in \mathbb C^{N \times M}\)(秩\(r \leq N\))有如下分解：

\[\begin{aligned} \boldsymbol T(\boldsymbol u) & =\sum_{k=1}^r p_k \boldsymbol a(f_k)\boldsymbol a^{\mathrm H}(f_k) + \sigma \boldsymbol I \\ & =\boldsymbol A(\boldsymbol f) \mathrm{diag}(\boldsymbol p) \boldsymbol A^{\mathrm H}(f) + \sigma \boldsymbol I \end{aligned} \tag{5-69} \]

其中，\(\sigma = \lambda_{\min}(\boldsymbol T(\boldsymbol u))\)，即\(\boldsymbol T(\boldsymbol u)\)的最小特征值，\(r = \mathrm{rank}(\boldsymbol T - \sigma \boldsymbol I)<N\)。

注：推论中分解唯一性是\(\sigma = \lambda_{\min}(\boldsymbol T(\boldsymbol u))\)保证的。若让\(0<\sigma< \lambda_{\min}(\boldsymbol T(\boldsymbol u))\)则会使\(\boldsymbol T(\boldsymbol u)\)满秩，分解不唯一。

1. EM算法

EM算法主要用来解决具有隐变量的混合模型的参数估计问题。做参数估计的时候，一般在比较简单的模型情况下，是直接可以得出解析解的。比如说常见的MLE问题，可通过直接求导得到结果：

\[\theta_{\mathrm{MLE}} = \arg \max_{\theta} p(x|\theta) = \arg \max_{\theta} \log p(x|\theta) \]

其中，为简化运算引入了\(\log\)函数，称\(\log p(x|\theta)\)为“对数似然函数”。但是，对于含有隐变量的混合模型，直接求解析解是非常困难的，甚至没有解析解。

EM算法的迭代公式为：

\[\theta^{(t+1)} = \arg \max_{\theta} \mathbb{E}_{z|x, \theta^{(t)}}[\log p(x,z|\theta)]= \arg \max_{\theta} \int_{z} \log p(x,z|\theta) p(z|x, \theta^{(t)}) \text{ d}z \]

其中，\(x\)是数据，\(z\)是隐变量，\(p(z|x, \theta^{(t)})\)是后验，\(\log p(x,z|\theta)\)称为对数联后概率or对数完全数据。E-Step就是写出\(\mathbb{E}_{z|x, \theta^{(t)}}[\log p(x,z|\theta)]\)的表达式，M-Step就是让这个期望最大。

\[\begin{aligned} \log p(x|\theta) = & \log \dfrac{p(x, \theta)}{p(\theta)} = \log \dfrac{p(x, \theta)p(z|x, \theta)}{p(\theta)p(z|x, \theta)}\\ = & \log \dfrac{p(x, \theta, z)}{p(\theta)p(z|x, \theta)} = \log \dfrac{p(x, z |\theta)p(\theta)}{p(\theta)p(z|x, \theta)}\\ = & \log p(x,z|\theta) - \log p(z|x,\theta) \end{aligned} \]

两边同时求期望：

\[\begin{aligned} 左边 &= \int_{z}\log p(x|\theta) \cdot p(z|x, \theta^{(t)}) \text{ d}z \\ &= \log p(x|\theta) \int_{z} p(z|x, \theta^{(t)}) \text{ d}z \\ &= \log p(x|\theta) = 左边什么都没做 \end{aligned} \]

\[\begin{aligned} 右边 &= \int_{z} \log p(x,z|\theta) \cdot p(z|x, \theta^{(t)}) \text{ d}z - \int_{z} \log p(z|x,\theta) \cdot p(z|x, \theta^{(t)}) \text{ d}z\\ &= Q(\theta, \theta^{(t)}) - H(\theta, \theta^{(t)}) \end{aligned} \]

则由定义直接可得：\(Q(\theta^{(t+1)}, \theta^{(t)}) \geq Q(\theta, \theta^{(t)}) \Rightarrow Q(\theta^{(t+1)}, \theta^{(t)}) \geq Q(\theta^{(t)}, \theta^{(t)})\)。

下面来证明\(H(\theta^{(t+1)}, \theta^{(t)}) \leq H(\theta^{(t)}, \theta^{(t)})\)：

\[\begin{aligned} H(\theta^{(t+1)}, \theta^{(t)}) - H(\theta^{(t)}, \theta^{(t)}) &= \int_{z} \log p(z|x,\theta^{(t+1)}) \cdot p(z|x, \theta^{(t)}) \text{ d}z - \int_{z} \log p(z|x,\theta^{(t)}) \cdot p(z|x, \theta^{(t)}) \text{ d}z \\ &= \int_{z} \log \dfrac{p(z|x,\theta^{(t+1)})}{p(z|x, \theta^{(t)})} \cdot p(z|x, \theta^{(t)}) \text{ d}z \\ &= -KL\left[p(z|x, \theta^{(t)}) || p(z|x,\theta^{(t+1)})\right] \\ &\leq 0 \end{aligned} \]

其实，这里除了用KL散度，也可以使用Jensen不等式，具体如果有需要再查阅资料。

1.2 EM算法的公式推导

\[\begin{aligned} \log p(x|\theta) &= \log p(x,z|\theta) - \log p(z|x, \theta) \\ &= \log \dfrac{p(x,z|\theta)}{q(z)} - \log \dfrac{p(z|x, \theta)}{q(z)} \end{aligned} \]

其中，这里引入了一个关于\(z\)的概率分布\(q(z)\)。下面等式两边分别关于\(q(z)\)求期望。

\[\begin{aligned} 左边 &= \int_{z}\log p(x|\theta) \cdot q(z) \text{ d}z \\ &= \log p(x|\theta) \int_{z} q(z)\text{ d}z \\ &= \log p(x|\theta) = 左边什么都没做 \end{aligned} \]

\[\begin{aligned} 右边 &= \int_{z} \log \dfrac{p(x,z|\theta)}{q(z)} \cdot q(z) \text{ d}z - \int_{z} \log \dfrac{p(z|x, \theta)}{q(z)} \cdot q(z) \text{ d}z\\ &= \mathrm{ELBO} + KL\left[q(z)||p(z|x, \theta) \right] \end{aligned} \]

其中，\(\mathrm{ELBO} = \text{evidence lower bound}\)，故名思意\(\mathrm{ELBO}\)是\(\log p(x|\theta)\)的一个下界。

1.N GMM模型

机器学习-白板推导系列(十一)-高斯混合模型GMM - bilibil
高斯混合模型（GMM）推导及实现 - 渐渐弃坑的文章 - 知乎
 高斯混合模型（GMM）推导 - Young Zicon的文章 - 知乎
 机器学习-白板推导系列 - ws13685555932的笔记 - Github
【机器学习笔记11】高斯混合模型（GMM）【上篇】原理与推导 - CSDN

EM算法原理及推导 - 渐渐弃坑的文章 - 知乎

从最大似然到EM算法：一致的理解方式：苏剑林个人博客，好像很牛很牛！！！
统计学里频率学派(Frequentist)与贝叶斯(Bayesian)学派的区别和在机器学习中的应用 - 人民教师Kelly的文章 - 知乎

2. MM算法

浅谈MM优化算法以及CCP算法 - CSDN
MM 算法与 EM算法概述 - 博客园
 MM(Majorize-Minimization, Minorize-Maximization)优化方法 - CSDN

posted @ 2023-09-03 18:52 博客侦探阅读(60) 评论(0) 编辑收藏举报

刷新页面返回顶部

junhengwang

信号处理中的优化算法

1. EM算法

1.2 EM算法的公式推导

1.N GMM模型

2. MM算法

公告