CV 基础知识学习笔记
简略记录一下一些基本的 CV 的知识
参考:
https://www.bilibili.com/video/BV1q7411T7Y6/
输出层大小计算公式:
\(out_{size} = (in_{size} - F_{size} +2P) / S + 1\)
\(in_{size}\) 为输入长度
\(F_{size}\) 为权重矩阵长度,减掉意义为去掉第一个矩阵长度。
\(P\) 为 padding ,即填充长度,乘 2 是因为前后各填充一次。
\(S\) 为 stride,即步长,/S 即计算跳多少次。
最后 +1 是加回一开始的矩阵。
感受野计算公式:
\(F(i)\) 为第 \(i\) 层的感受野(最后一层的一个元素对应该层的区域大小)
\(F(i) = (F(i+1)-1)*Stride + Ksize\)
\(Ksize\) 为卷积核或池化层尺寸。
该公式类似于 \(in_{size}\) 和 \(out_{size}\) 的逆运算,
即确定 \(out_{size} = F(i+1)\) 时,来计算 \(in_{size} = F(i)\),这里忽略边界填充的 padding。
VCG16:
由上计算公式,两个 \(3*3\) 的 卷积核(stride = 2) 可以替代一个 \(5*5\) 的卷积核,且参数量更少
三个 \(3*3\) 则可以替代 \(7*7\) 的。
VCG16 中的卷积层不会改变图像大小,池化层使图像大小减半。
经过若干层网络后,变为 77512,
然后全连接到 114096 + RELU,
再全连接到 114096 +RELU,
再全连接到 11100(CIFAR-1000) + softmax 作为 loss
faster-RNN:
https://www.bilibili.com/video/BV1af4y1m7iL?p=3&vd_source=2dc253394f02540aab1509cb9ec3d1dc
主要是理解 RCN 怎么得到候选框的过程。
anchor:先验框。