一些矩阵范数的subgradients

《Subgradients》
Subderivate-wiki
Subgradient method-wiki
《Subgradient method》
Subgradient-Prof.S.Boyd,EE364b,StanfordUniversity
《Characterization of the Subdifferential of Some Matrix Norms 》

这篇文章主要参考:

《Characterization of the Subdifferential of Some Matrix Norms 》

矩阵ARm×n为矩阵范数,注意这里我们并没有限定为何种范数。那么A的次梯度可以用下式表示:

A={GRm×n|B>A+trace[(BA)TG],allBRm×n}

这个定义和之前提到的定义是相一致的,事实上,trace(ATB)就相当于将AB拉成俩个长向量作内积,比较实质就是对应元素相乘再相加。

GA等价于:
在这里插入图片描述
在我看的书里面,对偶范数一般用表示,且是如此定义的:

z=sup{zTx|x1}

因为下面还有很多地方是采取截图的形式展示的,所以还是沿袭论文的符号比较好,这里只是简单提一下。
至于为什么等价,论文里面没有提,我只能证明,满足那俩点条件的GA的次梯度,而不能证明所有次梯度都满足那俩个条件。
证明如下:
假设G满足上面的条件,那么:

trace[(BA)TG]=A+trace(BTG)A+trace[(BA)TG]=trace(BTG)

trace(BTBG)1=BB

所以

BA+trace[(BA)TG]

所以GA'
不好意思,我想到怎么证明啦!下证,GA必定满足上述的条件,我们先说明范数的一些性质:
齐次:tA=|t|A
三角不等式:A+BA+B
既然对所有BRm×n成立:

BA+trace[(BA)TG]

B=1/2A,可得:

trace(ATG)A

A+BA+BA+Btrace[BTG]+Btrace(BTG)B

所以:

Atrace(ATG)Atrace(ATG)=A

到此第一个条件得证。
又:

trace(BTG)Btrace(BTBG)=G1

第二个条件也得证。漂亮!

正交不变范数

正交不变范数定义如下:

UAV=A

其中U,V为任意正交矩阵(原文是UVA=A,我认为是作者的笔误)。
注意,如果范数是正交不变的,那么其对偶范数同样是正交不变的,证明如下:
既然:

Z=sup{trace(ZTX)|X1}

UZV=sup{trace(VTZTUTX)|X1}

UXV替代X代入即可得:

UZV=sup{trace(VTZTUTX)|X1}=sup{trace(VTZTUTUXV)|UXV1}=sup{trace(ZTX)|X1}=Z

最后第二个等式成立根据迹的性质和的题设。

我们假设矩阵A的SVD分解为:

A=UΣVT

其中ΣRm×n为对角矩阵(那种歪歪的对角矩阵),UV的列我们用ui,vi来表示。
假设其奇异值:

σ1σ2σn

降序排列。
所有这样的(正交不变?)范数都能用下式来定义:

A=ϕ(σ)

其中σ=(σ1,,σn)T,ϕ是一个对称规范函数(symmetirc gague function),满足:
在这里插入图片描述
上面这个东西我也证明不了,不过至少谱范数和核函数的确是这样的。

ϕ的对偶可以用下式来表示:

ϕ=maxϕ(y)=1xTy

而且其次梯度更矩阵范数又有相似的一个性质:
在这里插入图片描述
证明是类似的,不多赘述。

一种常见的正交不变范数可由下式定义:

A=σp

比较经典的,p=1对应核范数,p=2对应F范数,p=对应谱范数。

定理1

在这里插入图片描述

证明如下:

这一部分的证明需要注意,不要把A当成题目中的A,当成A+rR可能更容易理解。
在这里插入图片描述

这部分的证明,主要是得出了σi(γ)的一个泰勒展开,要想证明这个式子成立,可以利用上面的公式,也可以这么想。σi(γ)A+γR的第i个奇异值:

limγ0+σi(γ)σiγ=limγ0+σi(A+γR)σiγ=limγ0+ui(γ)T(A+γR)vi(γ)σiγ

即为:

limγ0+ui(γ)TAvi(γ)σiγ+uiTRvi

所以左边这项等于0?
在这里插入图片描述

下面的证明中,第一个不等式成立的原因是:

ϕ(σ)ϕ(σ(γ))+(σσ(γ))Td(γ)

σ(γ)Td(r)=ϕ(σ(r))
在这里插入图片描述

类似地,我们就可以得到下面的分析:
在这里插入图片描述
有一点点小问题是,没有体现出max的,不过从(2.5)看,因为这个不等式是对所有dϕ(σ)都成立的,所以结果成立。怎么说呢,这个有点像是上确界的东西。

我们定义符号conv{},表示集合的凸包。

定理2

注意,我们的最终目的是找到A利用前面的铺垫我们可以得到定理2:

在这里插入图片描述
相当有趣的一个东西。

下面是证明:

证明总的是分俩大部分来证明的,首先得证明Gconv{S(A)}满足上面的俩个条件,即是次梯度,再证明,不存在一个次梯度不属于conv{S(A)}
其实下面这部分的证明,我觉得用A=UiΣiViT表示比较好,作者的意思应该是奇异值分解可以用不同的序,毕竟我们不能要求凸包中的元素有合适的序。
在这里插入图片描述

下面这部分的证明,感觉没什么好讲的。
在这里插入图片描述
下面这部分证明,打问号的地方我有疑惑,以为我觉得只能知道ϕ(di)1,而且在这个条件下,证明依旧。好吧,我明白了,因为:ϕ(di)=maxϕ(x)=1diTx,又diϕ(σ),所以只需令x=σ/|ϕ(σ)即可得ϕ(di)=1
在这里插入图片描述
到此,俩个条件满足,第一部分证毕。

第二部分用到了一个理论,我没有去查阅。这部分证明的思想是,即便存在这么一个G不属于convS(A)G依旧得满足trace(RTG)maxdϕ(σ)t=1ndiuiTRvi(要知道,后面这个部分是类似右导数的存在!!!),这个的原理是一种极限的思想,不好表述,但是真的真的蛮容易证明的。
在这里插入图片描述

例子:谱范数

在这里插入图片描述
在这里插入图片描述
凸包,凸包,切记切记。

例子:核范数

在这里插入图片描述
上面倒数第二行那个式子成立,要注意iλi=1这个条件。
在这里插入图片描述

注意:这里出现Y,Z的原因是U(2),V(2)对应的奇异值为0,所以其顺序是任意的,并没有对应一说。

算子范数

AB分别表示定义在RmRn上的范数,那么对于矩阵ARm×n上的算子范数,可以如下定义:

A=maxxB=1AxA

注意,矩阵范数,向量范数都满足引里的那个等价条件(实际上,只需满足正定性和三角不等式即可,就能推出那个等价条件)。

定义Φ(A):
在这里插入图片描述

定理3

类似的,我们有定理3:
在这里插入图片描述

这部分的推导是类似的:
在这里插入图片描述
在这里插入图片描述

下面这部分和之前的是不同的,这么大费周章,就是为了证明最后收敛的结果在Φ(A)中,之间没有这部分的证明,是因为凸函数次梯度的集合是闭凸的?
在这里插入图片描述
在这里插入图片描述

定理4

这个定理,就是为了导出A的次梯度。

在这里插入图片描述
这部分首先利用迹的性质,再利用Avi=Aui
在这里插入图片描述
wiTRviR的原因是wiA1,
RviAR=RviAmaxv_B=1RvA1(至少RviA=1),所以有上面的结果。
在这里插入图片描述
到此,我们证明了,S(A)中的元素均为次梯度,下证凡是次梯度,必属于S(A)

这部分证明没有需要特别说明的。
在这里插入图片描述

例子 2

在这里插入图片描述

posted @   馒头and花卷  阅读(2970)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示