深入分析:Lasso问题和原子范数问题研究

写在前面

本文将主要围绕Lasso问题和原子范数等经典问题进行对偶问题的推导、分析,由于笔者的数理基础浅薄,下面的证明过程若存在错误,欢迎评论指正。

LASSO问题

推导

​ 问题定义:minx||yXβ||22+τ||β||A

​ 问题推导:

​ 0、上述问题是典型的无约束问题,可以通过变量替换的思想进行处理。

​ 1、令z=Xβ,上述问题更新为g(u)=minβ,z=12yz22+λβ1+uT(zXβ).

​ 2、可以观察到g(u)中关于βz的元素项不存在耦合关系,因此可进步将g(u)问题拆解为独立的最小项g(β)g(z),其中g(β)=minβ λβ1uTXβ, g(z)=minβ 12yz22+uTz

​ 3、g(β)=minβ λβ1uTXβ=maxβ λ(β1+uTXβλ)=λ g(XTuλ)=λI{vi|v1}(XTuλ),这个最小项可以表征为示性函数形式,示性函数f(y)={0||y||1otherwise=I{z:||z||1}(y).

​ 4、对g(z)求极值,可以得到(yz)+u=0,即z=yu.

​ 5、将上述约束代入g(z),可以得到下式:

g(z)=12u22+uT(yu)=uTy12u22=12[y22+u222uTy]+12y22=12yu22+12y22

​ 那么对偶问题可以表示为如下形式:

maxu12yu22+12y22 s.t.XTuλ

原子范数对偶问题

推导

​ 有噪声情况下,原子范数的原问题可以抽象为:minxxAsubject to{y=FMx+n,n2ϵ.

​ 对偶函数可以写为g(x,u)C上的下确界,即g(c,ξ)=inf L(x,c,ξ)

​ 下面对原问题的对偶问题进行推导:

​ 1、原问题的增广拉格朗日目标函数可以表示为:L(x,c,ξ)=xA+Re[cH(yFMxn)]+ξ(nHnϵ2)

将拉格朗日方程进行重写,inf L(x,c,ξ)=Re[cHycHn]+ξ[nHnϵ2]+inf[xARe[λHFMx]]

​ 2、下确界的求解是关于x的最小化,因此对原拉格朗日增广函数的最小化可以转换为对[xARe[λHFMx]]求下确界。在求这项下确界时,需要对式中的噪声功率参数n和对偶变量ξ求偏导寻找极值点。

​ 当对噪声功率参数n求偏导时[目的是为了使噪声功率最小化],有g(c,ξ)c=c+2ξn=0,可以得到最佳极值点no=c2ξ,此时对应的对偶函数为g(c,ξ)|n=Re[cHy]cHc2ξ+ξ(cHc4ξ2ϵ2)+\+infx(xARe[cHFMx]).

​ 当对对偶变量ξ求偏导时,有g(c,ξ)noξ=cHc4ξ2ϵ2=0,可以得到最佳极值点ξ0=c2ϵ.

​ 最后,基于最优极值点对偶函数可以表示为g(c)|no,ξo=Re[cHyϵc2+infx(xARe[cHFM]x)].

​ 对于下确界项,对每个xi,有Re[(cHFM)ixi]=Re[(FMHc)iHxi]=|(FMHc)i||xi|cosϕiϕi表示xiFMHc间的角度,基于此可以得到以下结论:|xi|Re[(FMHc)iHxi]=|xi|[1|(FMHc)i|cosϕi]|xi|[1|(FMHc)i|].

​ 当|FMHc|1时下确界项为0;当|xi|[1|(FMHc)i|]<0时下确界可以达到

​ 3、整理上述讨论,有噪声下的原子范数的对偶问题可以表征为:

g(c)={Re[cHyϵc2],FMHc1,otherwise.

​ 在上式中,FMHcFMH表示逆FFT算子,对偶多项式可以表示为H(z)=FMHc=m=0M1cmzm=m=0M1cmej(2πdλt)m,其中z(t)=ej(2πdλt).

​ 4、为了进一步抽象g(c),我们可以作以下表示:

​ 令a(ω)=[1,ejω,...,ejω(L1)]TL1次的三角多项式向量,那么因果三角多项式可以表征为:H(ω)=l=0L1hlejωl=a(ω)Hh,其中h=[h0,,hL1]TCL表示多项式系数向量.

​ 对于非负三角多项式,可以有Hermitian矩阵R(ω)=|H(ω)|2=H(ω)H(ω)H=a(ω)HhhHa(ω)=k=(L1)L1rkejωk,其中rk=l=0L1khlhl+kk0并且rk=rk,稀疏rk可以通过自相关矩阵QL×L=hhH的第k条对角线元素进行计算rk=i=1LkQi,i+k.

​ 令两个多项式H(ω)B(ω)满足以下不等关系:|H(ω)||B(ω)|,ω[π,π]

​ 这意味着|H(ω)|2|B(ω)|2,ω[π,π],定义RH(ω)=|H(ω)|2RB(ω)=|B(ω)|2,那么有RH(ω)RB(ω),即QHQB,其中QH=hhHQB=bbH为自相关向量h=[h0,,hL1]Tb=[b0,,bL1]T的自相关矩阵.

根据Schur补条件有QBhhH0,即[QBhL×1h1×LH1]0.

​ 令多项式H(ω)的振幅均匀有界(对所有ω[π,π]H(ω)γ,其中γR+为给定正实数.作为有界三角多项式的特例,令|B(ω)|=γ,那么H(ω)γ可以用两个线性不等式抽象,如下:(其中RB(ω)=γ2)

[QL×LhL×1h1×L1]0,i=1LjQi,i+j={γ2,j=00,j=1,,L1.

有界三角多项式的结果可以用于范数,因为多项式的最大振幅设置上界意味着多项式对所有ω[π,π]具有一致有界的振幅,H=maxω[π,π]|H(ω)|γ,|H(ω)|γ,ω[π,π].

​ 回到本节开始处,基于振幅一致有界条件和Schur补条件,对偶问题可以表征为以下凸优化问题

maxRe(cHyϵc2)  subject to[QM×McM×1c1×M1]0,i=1MjQi,i+j={1,j=00,j=1,,M1.

代码

% 本处仅给出上述凸优化问题的核心代码
if noise_flag == 0 % 无噪声版本
cvx_begin sdp quiet
cvx_solver sdpt3
variable S(M+1,M+1) hermitian
subject to
S >= 0;
S(M+1,M+1) == 1;
trace(S) == 2; % 主对角元素迹为2
for j = 1 : M-1
sum(diag(S,j)) == S(M+1-j,M+1); % 非主对角线元素求和为0.
end
maximize (real(S(1:M,M+1)'* Y)) % - 0.5 * norm(c)
cvx_end
else % noise version
regular_param = 0.2; % 有噪声需要引入正则化参数
cvx_begin sdp quiet
cvx_solver sdpt3
variable S(M+1,M+1) hermitian
subject to
S >= 0;
S(M+1,M+1) == 1;
trace(S) == 2;
for j = 1 : M - 1
sum(diag(S,j)) == S(M+1-j,M+1);
end
maximize (real(S(1:M,M+1)'* Y) - regular_param * norm(c));
cvx_end
end

原子范数软阈值问题的推导

推导

​ 原子集合由各个正弦曲线的样本组成,af,ϕCn,表示为af,ϕ=ei2πϕ[1 ei2πf ei2π(n1)f]T

​ 无限原子集A={af,ϕ:f[0,1],ϕ[0,1]}组成了x适当的原子集合,x在对偶问题中可以写成一个稀疏的非负的原子组合。x=l=1kclafl,0=l=1k|cl|afl,ϕlcl=|cl|ei2πϕl.

​ 相应的对偶范数采用直观的形式:vA=supf,ϕv,af,ϕ=supf[0,1]supϕ[0,1]ei2πϕl=0n1vle2πilf=sup|z|1|l=0n1vlzl|vA可以理解为在单位圆上获得的最大绝对值ζl=0n1vlζl,A={af,ϕ|f[0,1],ϕ[0,1]}为与线谱原子集相关的原子范数的半正定规划.

​ 根据上式可知向量vCn的对偶原子范数是复数三角多项式V(f)=l=0n1vlej2πlf的最大绝对值;因此,对对偶原子范数的约束等价于对V(f)大小的限制:||v||Atτ|V(f)|2τ2,f[0,1].函数q(f)=τ2|V(f)|2是一个三角多项式,q(f)非负的充要条件是可以写成三角多项式的平方和.

​ 定义映射TCnCn×n,从输入创建一个Hermitian Toeplitz 矩阵,即T(x)=[x1x2...xnx2x1...xn1xnxn1...x1].

​ 对于给定的因果三角多项式V(f)=l=0n1vle2πilf,如果有且仅有复Hermitian矩阵Q存在时有|V(f)|τ,这与原子范数对偶问题中第4节证明类似,即有T(Q)=τ2e1 and [Qvv1]0.其中e1=[1,0,0,....,0]Tv表示v的Hermitian转置.

重写原子范数xA=supvA1<x,v>为下列形式:

maximizev,Qx,vsubject toT(Q)=e1[Qvv1]0.

​ 下面对上述问题进行对偶推导:

​ 1、首先需要将上述问题转化为无约束的拉格朗日方程形式,可以表示如下:

L(Q,v,u,Γ)=x,v+u,T(Q)u,e1Γ,[Qv v1]

​ 2、关于v的项为$\langle x,v\rangle-\langle\Gamma, [Qv v1]\rangle v$求解极值,则有

xTr(Γ[0II0])=xTr([Γ12IΓ11IΓ22IΓ21I])=x2Γ12=0,那么可以得到Γ12=x2;Γ21=x2

​ 3、关于Q的项为u,T(Q)Γ,[Qvv1],对变量Q求解极值前,先将u,T(Q)进步抽象为Tr(T(u)Q),那么关于Q的偏导可表示为T(u)Γ,[I000]=0,那么则有Γ11=T(u),其中F22=t,用于半正定约束Γ=[T(u)x/2x/2t]0.

​ 4、将Γ结果代入到L中,那么有如下证明:

L=Re(vx)+Tr(T(u)Q)ue1Tr([T(u)Q+Re(vx)/2x/2+T(u)vtv+Re(Qx)/2Re(xv)/2+t])=ue1t=u1t.

​ 根据半正定约束条件T(u)txx/40,通过对ut缩放则有2tT(2u)xx0

​ 这等价于将对应目标函数缩放为u1/2t/2,那么原问题的对偶形式可以表示如下:

minimizet,u12(t+u1)subject to[T(u)xxt]0.

​ 那么对应有噪声版本下的原问题对偶函数可以表示如下:[τ表示正则参数]

minimizet,u,x12xy22+τ2(t+u1)subject to[T(u)xxt]0.

上述问题可以通过凸优化中的SDP解释器求解,但是计算复杂度较高,可以通过交替方向投影算子加速求解,这将在后续的章节进一步讨论。

代码

% 在上述推导过程中讨论了单快拍下有噪声和无噪声版本的原子范数模型
% 在本代码中笔者给出了单快拍和多快拍版本,后续将补充多快拍版本的理论
if noise_flag == 0 % 无噪声情况下的原子范数AST模型
if snap == 1 % 单快拍模型
cvx_begin sdp quiet
cvx_solver sdpt3
variable T(M, M) hermitian toeplitz
variable x
minimize (0.5 * x + 0.5 * T(1,1))
[x Y'; Y T] >= 0;
cvx_end
[Phi, Val] = rootmusic(T, P, 'corr');
Phis = Phi / 2 / pi ;
estimated_theta = asind(-Phis * lambda / d);
else % 多快拍模型
cvx_begin sdp quiet
cvx_solver sdpt3
variable T(M, M) hermitian toeplitz
variable X(snap, snap) hermitian
minimize (trace(X)+trace(T))
[X Y'; Y T] >= 0;
cvx_end
[Phi, Val] = rootmusic(T, P, 'corr');
Phis = Phi / 2 / pi ;
estimated_theta = asind(-Phis * lambda / d);
end
else % 有噪声情况下的原子范数AST模型
if snap == 1 % 单快拍模型
sigma = 1;
regular_param = sqrt(M * log(M * sigma));
cvx_begin sdp quiet
cvx_solver sdpt3
variable T(M, M) hermitian toeplitz
variable x
variable z(M,1) complex
minimize (regular_param * 0.5 *(x + T(1,1)) + 0.5 * norm(Y-z))
[x Y'; Y T] >= 0;
cvx_end
[Phi, Val] = rootmusic(T, P, 'corr');
Phis = Phi / 2 / pi ;
estimated_theta = asind(-Phis * lambda / d);
else % 多快拍模型
regular_param = sqrt(M * (snap + log(M) + sqrt(2 * snap * log(M))));
cvx_begin sdp quiet
cvx_solver sdpt3
variable T(M,M) hermitian toeplitz
variable X(snap, snap) hermitian
variable Z(M, snap) complex
minimize (regular_param * (trace(X) + trace(T)) + 1 / 2 * sum_square_abs(vec(Y - Z)));
[X Y';Y T] >= 0;
cvx_end
[Phi, Val] = rootmusic(T, P, 'corr');
Phis = Phi / 2 / pi ;
estimated_theta = asind(-Phis * lambda / d);
end
end

参考文献

[1] Atomic norm denoising with applications to line spectral estimation. https://arxiv.org/abs/1204.0562

[2] Grid-free compressive beamforming. https://arxiv.org/abs/1504.01662

[3] Positive Trigonometric Polynomials and Signal Processing Applications.

[4] Regularized Matrix Factorization for Multilabel Learning With Missing Labels. https://ieeexplore.ieee.org/abstract/document/9198894

posted @   信海  阅读(873)  评论(4编辑  收藏  举报
相关博文:
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 提示词工程——AI应用必不可少的技术
· 地球OL攻略 —— 某应届生求职总结
· 字符编码:从基础到乱码解决
· SpringCloud带你走进微服务的世界
点击右上角即可分享
微信分享提示