论文阅读--HyperNetworks，2017 ICLR

HyperNetwork

论文地址
1、灵感来源于nature中的基因型（超网络）以及表型（主网络）
2、主要为了解决CNN，RNN中权重不共享以及RNN中全共享的问题，旨在创造一个relaxed weight-sharing across layers的模型，在不特别影响精度的情况下，减少了模型参数。

模型

一、静态 HyperNetwork：深度卷积网络的权重分解方法

超网络为前馈网络生成权重。黑色连接和参数与主网络相关联，而橙色连接和参数与超级网络相关联。

分解原理：
卷积的所有参数：\(K^j\in R^{N_{in}f_{size} \times N_{out} f_{size}}\) ，（其中\(j=1,...D\) 为深度卷积网络的层数），作者想让这个参数用线性映射一下，由此可以表示为：

将其沿着参数\(N_{in}\)方向分解为slices，输出的结果可以等价于输入两个线性层之后的叠加，由此函数\(g(\dot )\)可以拆分为如下公式（其中的<.>表示dot product点积）：

为什么要用两层：一是比一层的参数要少，二是对于共享参数\(W_{out}、B_{out}\)，两层的hperNetwork表示能使结构更为紧凑。
由此就可以用在一些深度卷积网络中，例如Resnet网络，结果如下：

代码：
HyperNetwork，定义了可学习参数

生成embedding

总体结构：

其实大概就是把Residual network中的卷积的权重换成了hpernetwork网络产生的结果（W），这个超网络需要embedding即Z作为激励
github代码