视觉皮层的架构

视觉皮层的架构

卷积神经网络(CNN)起源于对大脑的视觉皮层的研究,从20世纪80年代起被用于图像识别。在过去几年中,由于计算机计算能力的提高、可训练数据数量的增加,以及用于深度学习网络训练技巧的增加,CNN已经在一些复杂的视觉任务中实现了超人性化,广泛用于图片搜索服务、自动驾驶汽车、自动视频分类系统等。此外,不局限于视觉感知,CNN也成功用于其他任务,比如:语言识别或自然语言处理(NLP)

David H.Hubel和Torsten Wiesel在1958年和1959年利用猫做了一系列实验(在随后的几年又利用猴子做过实验),对视觉皮层的结构提出了重要见解(该成果使作者获得了1981年的诺贝尔生理学或医学奖)。另外,他们指出视觉皮层的神经元有一个小的局部接受视野,这就意味着它们只对视野的局部内的视觉刺激做出反应。不同的神经元的接受视野有可能会重复,它们一起平铺在整个视觉区域中。

此外,他们指出一些神经元作用于图片的水平方向,而另一些神经元作用于其他方向(两个神经元可能有相同的接受视野,但是作用于不同方向)。他们也注意到有些神经元有比较大的接受视野,它们作用于由多个低阶模式组成的复杂模式。这个发现可以推测出,高阶神经元基于相邻的低阶神经元的输出(每个神经元只跟上一层的少数神经元连接)。这种强大的组织结构可以检测到视觉区域内的所有复杂模式。

这些关于视觉皮层的研究影响了1980年引入的新认知机,然后逐步演变成现在所说的卷积神经网络。一个重要的里程碑是Yann LeCun等人发表于1998年的论文。该论文介绍了广泛用于识别手写支票号码的著名LeNet-5架构。该架构除了一些广为认知的架构层,例如全全连接层和Sigmoid激活函数,还引入了两个新的架构层:卷积层和池化层

为什么不简单地使用具有全连接层的深度神经网络来执行图像识别任务呢?

尽管这对于较小的图像(例如MNIST)效果很好,但由于需要大量的参数,因此对于较大的图像无能为力。例如,一个\(100\times100\)像素的图像有10000个像素,如果第一层只有1000个神经元(已经严重限制了传递到下一层的信息量),则意味着总共有1000万个连接。那只是第一层。CNN使用部分连接层和权重共享解决了此问题

posted @ 2021-11-14 11:15  里列昂遗失的记事本  阅读(271)  评论(0编辑  收藏  举报