[Stats385] Lecture 03, Harmonic Analysis of Deep CNN
大咖秀,注意提问环节大家的表情,深入窥探大咖的心态,很有意思。
之前有NG做访谈,现在这成了学术圈流行。
Video: https://www.youtube.com/watch?v=oCohnBbmpLA
Lecture: https://stats385.github.io/assets/lectures/bolcskei-stats385-slides.pdf
调和分析 reading list:https://www.zhihu.com/question/28661999
先提及了核方法,non-linear --> linear
Then, translation invariance.
-
- Translation covariance
Deformation insensitivity
解释了一点random kenrel的validity。
这部分没获得什么启示。
CNNs in a nutshell
到底需要设计多大的网络能满足需求?这是个好问题。
四个话题
Topology reduction
-
- Determine how fast the energy contained in the propagated signals (a.k.a. feature maps) decays across layers
- Guarantee trivial null-space for feature extractor Φ
- Specify the number of layers needed to have “most” of the input signal energy be contained in the feature vector
- For a fixed (possibly small) depth, design CNNs that capture “most” of the input signal energy
1:09:00 / 1:35:39 左右提及的上述第三个话题有点意思。
大咖设计网络深度的理论依据原来于此。
1:12:00 / 1:35:39 左右提及的上述第四个话题,shallow network。
抛出一个问题:
Is it possible to disign a network of a certain number of layers to make sure 达到 lower bound?
浅层网咯的设计需要每层更多filters to pick out most of the input signal energy?
想起了什么?mobileNet的权衡参数!【link】
- 宽度乘数 α :为了构建更小和更少计算量的网络,作者引入了宽度乘数 α ,作用是改变输入输出通道数,减少特征图数量,让网络变瘦。
- 分辨率乘数 ρ :分辨率乘数用来改变输入数据层的分辨率,同样也能减少参数。