Typesetting math: 100%

Deep Linear Networks with Arbitrary Loss: All Local Minima Are Global

Laurent T, Von Brecht J H. Deep linear networks with arbitrary loss: All local minima are global[C]. international conference on machine learning, 2018: 2902-2907.

问题

这篇文章是关于深度学习的一些理论分析.

假设这么一个网络:

y^(i)=WLWL1W1x(i).

其中x是输入,Wk是第k层的权重,而y^是最后的输出. 没错,这篇文章研究的是深度线性网络的性质(没有激活函数). 当然,这样子,无论有多少层,这个网络最后是一个普通线性函数,所以,作者的本意应该只是借此来窥探深度学习的一些性质.

作者证明了,在满足一定条件下,这个深度线性网络,任何局部最优解都是全局最优解.

假设和重要结果

损失函数如此表示:

L(W1,,WL)=1Ni=1N(y^(i),y(i)

假设

  1. dk表示第k+1层的神经元个数,即d0表示输入层的维度,WkRdk1×dk, dL表示输出层的维度,
  2. dkmin{d0,dL},0<k<L,
  3. 损失函数关于y^凸且可微.

定理1:满足上面假设的深度线性网络,任意局部最优都是全局最优.

考虑下面问题p(2):

minf(WLWL1W1),

并记A=WLWL1W1.
则:

定理3:
假设f(A)是任意的可微函数,且满足:

min{d1,,dL1}min{d0,dL},

则关于p(2)的任意的极小值点(W^1,,W^L),都将满足:

f(A^)=0A^:=W^LW^L1W^1.

证明

注意到, 可表示成:

L(W1,,WL)=f(WLW1).

f(A)是关于A的凸的可微函数(注意是关于A), 所以,当f(A^)=0的时候,A^便是f,即L得最小值点. 这意味着,只要我们证明了定理3,也就证明了定理1.

下证定理3:

首先定义:
在这里插入图片描述

记:

F(W1,,WL):=f(WLW1).

容易证明(这部分论文中也给出了证明,不在此贴出):
在这里插入图片描述
其中:
在这里插入图片描述
不失一般性,假设dLd0, 因为令:

g(A):=f(AT)

则,g定义在d0×dL之上,且AT使得f为极小值,当且仅当A使得g为极小值,所以d0,dL的地位是相同的,我们可以直接假设dLd0.

(W^1,,W^L)是最小值点,则存在ϵ>0, 使得满足:
在这里插入图片描述
的点满足:
在这里插入图片描述

于是:
在这里插入图片描述
ker(W^L1)={0}的时候:

f(A^)=0.

于是只要证明, ker(W^L1)={̸0}的时候,上式也成立即可.

我们的想法是构造一族极小值点, 满足:

A~=A,

通过一些性质,推出f(A^)=0.

首先证明,满足:
在这里插入图片描述
的点都是极小值点.

因为:

在这里插入图片描述
所以:
在这里插入图片描述
所以(W~1,,W~L)也是一个极小值点.

那么如何来构造呢?

可知:
在这里插入图片描述
W^k,进行奇异值分解:
在这里插入图片描述
因为dkd0,k1, 所以其分解是这样的:
在这里插入图片描述
注意到,这里体现了为什么需要dkmin{dL,d0}, 否则ker(W^k,)不可能等于{0}(因为其秩永远小于d0).

假设k是第一个ker(W^k,)={̸0}的,则下面的构造便是我们所需要的:
在这里插入图片描述
其中u^k1表示W^k1,奇异值分解U^k1d0列, 很明显,满足u^k1TW^k1,=0,kk+1.

条件(8)容易证明,用数学归纳法证明(9):
第一项成立,假设第k项也成立, 于是
在这里插入图片描述
也成立,所以条件成立.

既然满足其构造方式的所有点都是点都是极小值点,那么:
在这里插入图片描述
注意,对所有的满足条件的δk,wk都成立.
k>1的时候可得:
在这里插入图片描述
ker(W^k1,)={0}, 所以:
在这里插入图片描述
注意到k=1的时候,也有上面的形式.

首先,令δk+1=0, 则W~k+1=W^k+1, 于是:

在这里插入图片描述
在去任意δk+1>0, 与上式作差可得:
在这里插入图片描述
俩边同乘上u^kT可得:
在这里插入图片描述
因为wk+1是任意的,所以,左端为0,以此类推,最后可得:

f(A~)=f(A^)=0.

证毕.

我没有把定理2放上来.

有一个方向,定理3中的极小值点改成极大值点,似乎定理也成立,即:
假设f(A)是任意的可微函数,且满足:

min{d1,,dL1}min{d0,dL},

则关于p(2)的任意的极大值点(W^1,,W^L),都将满足:

f(A^)=0A^:=W^LW^L1W^1.

我自己仿照论文的证明是可以证明出来的,不过,既然f(A^)=0, 那么A^依然是L的最小值点,是不是可以这么认为,f压根没有存粹的极大值点.

另外作者指出,极小值点不能改为驻点,因为A=0便是一个驻点,但是没有f(0)必须为0的规定.
此外作者还说明了,为什么要可微等等原因,详情回见论文.

posted @   馒头and花卷  阅读(312)  评论(0编辑  收藏  举报
编辑推荐:
· 智能桌面机器人:用.NET IoT库控制舵机并多方法播放表情
· Linux glibc自带哈希表的用例及性能测试
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
阅读排行:
· 手把手教你在本地部署DeepSeek R1,搭建web-ui ,建议收藏!
· 新年开篇:在本地部署DeepSeek大模型实现联网增强的AI应用
· Janus Pro:DeepSeek 开源革新,多模态 AI 的未来
· 互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(三):用.NET IoT库
· 【非技术】说说2024年我都干了些啥
点击右上角即可分享
微信分享提示