AlexNet
AlexNet
AlexNet[Krizhevsky et al., 2012]是第一个现代深度卷积网络模型,其首次使用了很多现代深度卷积网络的一些技术方法,比如使用 GPU 进行并行训练,采用了 ReLU作为非线性激活函数,使用 Dropout 防止过拟合,使用数据增强来提高模型准确率等。 AlexNet赢得了 2012年 ImageNet图像分类竞赛的冠军。
AlexNet的结构如图所示,包括5个卷积层、3个全连接层和1个softmax层。因为网络规模超出了当时的单个 GPU的内存限制, AlexNet将网络拆为两半,分别放在两个 GPU上, GPU间只在某些层(比如第 3层)进行通讯。
各层参数
输入层
输入224 × 224 × 3的图像;
第一个卷积层
使用两个 11 × 11 × 3 × 48的卷积核,步长 s = 4,零填充p = 3,得到两个 55 × 55 × 48的特征映射组。
第一个池化层
使用大小为 3 × 3的最大汇聚操作,步长 s = 2,得到两个27 × 27 × 48的特征映射组。
第二个卷积层
使用两个 5 × 5 × 48 × 128的卷积核,步长 s = 1,零填充p = 1,得到两个 27 × 27 × 128的特征映射组。
第二个池化层
使用大小为 3 × 3的最大汇聚操作,步长 s = 2,得到两个13 × 13 × 128的特征映射组。
第三个卷积层
两个路径的融合,使用一个 3 × 3 × 256 × 384的卷积核,步长 s = 1,零填充 p = 1,得到两个 13 × 13 × 192的特征映射组。
第四个卷积层
使用两个 3 × 3 × 192 × 192的卷积核,步长 s = 1,零填充 p = 1,得到两个 13 × 13 × 192的特征映射组。
第五个卷积层
使用两个 3 × 3 × 192 × 128的卷积核,步长 s = 1,零填充 p = 1,得到两个 13 × 13 × 128的特征映射组。
池化层
使用大小为3×3的最大汇聚操作,步长s = 2,得到两个6×6×128的特征映射组。
三个全连接层
神经元数量分别为 4096, 4096和 1000。