《动手学深度学习 Pytorch版》 6.1 从全连接层到卷积

6.1.1 不变性

平移不变性（translation invariance）：

不管检测对象出现在图像中的哪个位置，神经网络的前面几层应该对相同的图像区域具有相似的反应，即为“平移不变性”。
局部性（locality）：

神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远区域的关系，这就是“局部性”原则。最终，可以聚合这些局部特征，以在整个图像级别进行预测。

6.1.2 多层感知机的限制

假设多层感知机的输入是 $X$ ，将其隐藏表示记为 $H$ （二者形状相同）。

使用 $[\boldsymbol{X}]_{ij}$ 和 $[\boldsymbol{H}]_{ij}$ 表示位置 $(i,j)$ 位置上的像素点。

因为每个像素点都需要和其他像素点联系，故每个像素点都需要一个二阶的权重张量，又由于是二维图像，故最终权重张量 $\mathrm{W}$ 为四维。

再假设偏置参数为 $U$ ，则可以将全连接层表示为：

[H]_{i j} = [U]_{i j} + \sum_{k} \sum_{l} [W]_{i, j, k, l} [X]_{k, l}

$[\boldsymbol{H}]_{ij} = [\boldsymbol{U}]_{ij}+\sum_k\sum_l[\mathrm{W}]_{i,j,k,l}[\boldsymbol{X}]_{k,l}$

为了方便表示，我们对下标 $(k,l)$ 进行重新索引，使得 $k=i+a,l=j+b$ ，则可以得到重拍后的权重矩阵 $[V]_{i,j,a,b}=[\mathrm{W}]_{i,j,i+a,j+b}$ 。

上式可表述为：

[H]_{i j} = [U]_{i j} + \sum_{a} \sum_{b} [V]_{i, j, a, b} [X]_{i + a, j + b}

$[\boldsymbol{H}]_{ij} = [\boldsymbol{U}]_{ij}+\sum_a\sum_b[\mathrm{V}]_{i,j,a,b}[\boldsymbol{X}]_{i+a,j+b}$

平移不变性

现在引入平移不变性，即检测对象在输入 $X$ 中的平移应该仅导致隐藏表示 $H$ 中的平移。简言之，无须每个像素都要独享一个二维权值张量，所有像素共享同一个即可，故权重张量降为二维即可。此时式子可以简化为：

$[\boldsymbol{H}]_{ij} = u+\sum_a\sum_b[\boldsymbol{V}]_{a,b}[\boldsymbol{X}]_{i+a,j+b}$
这就是所谓卷积，使用系数 $[\boldsymbol{V}]_{a,b}$ 对 $(i,j)$ 附近的像素 $(i+a,j+b)$ 进行加权得到 $[\boldsymbol{H}]_{ij}$ 。
局部性

对于上述的 $a,b$ 不应该取太大，即范围不应太大，至少不应该是全图。故可将 $\left|a\right|>\Delta \left|b\right|>\Delta$ 的范围设置为0（即不考虑范围外的影响）。故可将式子重写为：

$[\boldsymbol{H}]_{ij} = u+\sum_a^\Delta\sum_b^\Delta[\boldsymbol{V}]_{a,b}[\boldsymbol{X}]_{i+a,j+b}$

至此，可以称 $V$ 为卷积核。简言之，卷积操作实际就是计算一圈像素对中间像素的影响，使用不同的卷积核则计算的是不同方面的影响，最终实现提取不同特征的效果。此处参考王木头大佬的视频《从“卷积”、到“图像卷积操作”、再到“卷积神经网络”，“卷积”意义的3次改变》。

6.1.3 卷积

在数学中，卷积被定义为：

(f * g) (x) = \int f (z) g (x - z) d z

$(f*g)(\boldsymbol{x})=\int f(\boldsymbol{z})g(\boldsymbol{x}-z)d\boldsymbol{z}$

用一个例子说明的话，一个不确定的输入函数叠加上一个确定的输出函数，计算最终余量即为卷积。

6.1.4 “沃尔多在哪里”回顾

上面一直将图片作为二维张量，实际上图像一般包含三个通道（即RGB三原色），因此图像应该是一个由高度、宽度和颜色组成的三维张量。故我们应将 $\boldsymbol{X}$ 索引为 $[\boldsymbol{X}]_{i,j,k}$ ，由此卷积核相应的调整为 $[\boldsymbol{V}]_{a,b,c}$ ，再添加一个 $d$ 以实现不同通道的输出，即：

[H]_{i, j, d} = \sum_{a = - Δ}^{Δ} \sum_{b = - Δ}^{Δ} \sum_{c} [V]_{a, b, c, d} [X]_{i + a, j + b, c}

$[\boldsymbol{H}]_{i,j,d} = \sum_{a=-\Delta}^\Delta\sum_{b=-\Delta}^\Delta\sum_c[\boldsymbol{V}]_{a,b,c,d}[\boldsymbol{X}]_{i+a,j+b,c}$

练习

（1）假设卷积层式（6.3），覆盖的局部区域 $\Delta=0$ 。在这种情况下，证明卷积核为每组通道独立地实现一个全连接层。

若 $\Delta=0$ 则意味着卷积核大小为1，那感觉和全连接没区别的哇。

（2）为什么平移不变性可能也不是好主意呢？

太单一，也许不同区域需要的卷积核不一样。

（3）当从图像边界像素获取隐藏表示时，我们需要思考哪些问题？

应该考虑关于填充的事情。

（4）描述一个类似的音频卷积层的架构。

将音频信息转换为二维数据或更高维再进行卷积操作。

（5）卷积层也适合于文本数据吗？为什么？

我觉得可以，只要找到合适的方法数据化文本。因为卷积这种对于特征的提取对于自然语言也应该是适用的。

（6）证明在式（6.6）中， $f*g=g*f$ 。

\begin{aligned} (1) & (f * g) (x) & = \int f (z) g (x - z) d z \\ (2) & = \int f (x - t) g (t) d (x - t) (令 t = x - z) \\ (3) & = \int g (t) f (x - t) d t \\ (4) & = (g * f) (x) \end{aligned}

$\begin{align} (f*g)(\boldsymbol{x}) &= \int f(\boldsymbol{z})g(\boldsymbol{x-z})d\boldsymbol{z}\\ &= \int f(\boldsymbol{x-t})g(\boldsymbol{t})d\boldsymbol{(x-t)}\qquad(令 t=\boldsymbol{x-z})\\ &= \int g(\boldsymbol{t})f\boldsymbol{(x-t)}d\boldsymbol{t}\\ &= (g*f)(\boldsymbol{x}) \end{align}$

posted @ 2023-09-15 16:34 AncilunKiang 阅读(169) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 《动手学深度学习 Pytorch版》 6.2 图像卷积

· 《动手学深度学习 Pytorch版》 6.6 卷积神经网络

· 全连接层到卷积层

· 机器学习——从全连接到卷积

· 深度学习 - 卷积神经网络

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了

公告

昵称： AncilunKiang
园龄： 4年2个月
粉丝： 18
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

AncilunKiang

《动手学深度学习 Pytorch版》 6.1 从全连接层到卷积

6.1.1 不变性

6.1.2 多层感知机的限制

6.1.3 卷积

6.1.4 “沃尔多在哪里”回顾

练习

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论