浅谈凸优化问题中的Bregman迭代算法

对于搞图像处理的人而言，不懂变分法，基本上，就没法读懂图像处理的一些经典文献。当然，这已经是10年之前的事情了。

现在，如果不懂得Bregman迭代算法，也就没法读懂最近几年以来发表的图像处理的前沿论文了。国内的参考文献，基本上都是直接引用Bregman迭代算法本身，而对于其原理基本上找不到较为详细的论述。本文简要叙述当前流行的Bregman迭代算法的一些原理。

1. 简介

近年来，由于压缩感知的引入，L1正则化优化问题引起人们广泛的关注。压缩感知，允许通过少量的数据就可以重建图像信号。L1正则化问题是凸优化中的经典课题，用传统的方法难以求解。我们先从经典的图像复原问题引入：

在图像复原中，一种通用的模型可以描述如下：

我们目标是从观测到的图像f，寻找未知的真实图像u，u是n维向量空间中的元素，f是m维向量空间中的元素。f 在压缩感知的术语叫做测量信号。是高斯白噪声其方差为sigma^2。A是线性算子，例如反卷积问题中的卷积算子，压缩感知中则是子采样测量算子。

上述方程中，我们仅仅知道f，其它变量都不知道的。而且这种问题通常情况都是病态的，通过引入正则项可以使之成为良态的。正则化方法假定对未知的参数u引入一个先验的假设，例如稀疏性，平滑性。正则化问题的常见方法Tikhonov方法，它通过求解下面的优化问题：

其中mu是一个大于零的标量，事先设定的常数，用于权衡观测图像f和正则项之间的平衡。双绝对值符号是L2范数。

下面，为了引入Bregman迭代算法，需要对两个重要的概念进行描述。

2. Bregman距离

注意这个定义，它是对泛函J在u点的subgradient的定义，p点是其对偶空间的中的某一点。subgradient可以翻译为次梯度，子梯度，弱梯度等。等式左边最右边一项是内积运算。如果泛函J是简单的一元函数，则就是两个实数相乘。次梯度有什么好处呢？对于一般的导数定义，例如y=|x|在0点是不可导的，但是对于次梯度，它是存在的。

上面的这个定义就是Bregman距离的定义。对于凸函数两个点u，v之间的Bregman距离，等于其函数值之差，再减去其次梯度点p与自变量之差的内积。要注意的是这个距离不满足对称性，这和一般的泛函分析中距离定义是不一样的。

3. Bregman迭代算法

Bregman迭代算法可以高效的求解下面的泛函的最小

上式中的第一项J，定义为从X到R的泛函，其定义域X是凸集也是闭集。第二项H，定义为从X到R的非负可微泛函，f是已知量，并且通常是一个观测图像的数据，所以f是矩阵或者向量。上述泛函会根据具体问题的不同具有不同的具体表达式。例如，对于简介中的图像复原啊问题，J(u)就是平滑先验约束，是正则化项；而H则是数据项。

Bregman迭代算法首先是初始化相关的参数为零，再迭代公式u，其左边一项是泛函J的Bregman距离。再来看p点的迭代公式，其最右边一项是泛函H的梯度。

其迭代一次产生的输出是公式3.2，经过多次的迭代，就能够收敛到真实的最优解。这个证明过程可以参考后面的文献。

对于具体的问题，泛函3.1定义的具体形式是不同的。例如对于压缩感知使用的基追踪算法，J是L1范数。而对于图像去噪问题，可能就是u的梯度L1范数，同时A也变成了恒等算子了。

4. 线性Bregman迭代算法

Bregman 迭代算法的每一步迭代都要求解泛函4.1的最小值，这一步的计算代价是很高的。线性Bregman迭代的思路是对泛函4.1的第二项进行线性展开，根据矩阵函数的泰勒公式，泛函4.1的第二项可以展开为上面4.2的形式。

注意，上述公式4.2省略了泰勒公式中二次项。把二次项加上，带入前面基本的Bregman迭代算法公式的第一步，我们得到公式4.3。如果我们计算4.3和4.4中间那个表达式，比较其相同项，很容易得到公式4.4.

如果我们考虑基追踪算法，则H等于 ||Au - f||^2 /2, 将H的导数带入公式4.4,我们得到公式4.5, 公式4.6是基本Bregman迭代算法的第二步，注意上述4.6公式中u的上标是错的，应该改为 k+1 ，这样才可能得到公式4.7，公式4.8，4.9, 4.10, 4.11都是显而易见的。

下面我们把4.11和前面定义的Bregman距离带入到4.5里面去,具体如下：