ResNet可以说是在过去几年中计算机视觉和深度学习领域最具开创性的工作。在其面世以后,目标检测、图像分割等任务中著名的网络模型纷纷借鉴其思想,进一步提升了各自的性能,比如yolo,Inception-v4等。 ResNet通过重构模型对残差映射(Residual mapping)进行拟合,而非以往那样拟合期望的潜在映射(Underlying mapping)。借助这一举措,R... Read More
该笔记是我快速浏览论文后的记录,部分章节并没有仔细看,所以比较粗糙。从摘要中可以得知,论文提出在每次训练时通过随机忽略一半的feature detectors(units)可以极大地降低过拟合。该方法能够防止feature detectors之间的complex co-adaptations,即feature detectors只有在一些其它特定的feature detectors存在时才能发挥作... Read More
该论文提出了一种新颖的深度网络结构,称为“Network In Network”(NIN),以增强模型对感受野内local patches的辨别能力。与传统的CNNs相比,NIN主要的创新点在于结构内使用的mlpconv layers(multiple layer perceptron convolution layers)和global average pooling。下面先介绍二者:MLP C... Read More
该论文是深度学习领域的经典之作,因为自从Alex Krizhevsky提出AlexNet并使用GPUs大幅提升训练的效率之后,深度学习在图像识别等领域掀起了研究使用的热潮。在论文中,作者训练了一个含有60 million个参数和650000个神经元的深度卷积神经网络对ImageNet LSVRC-2010中1.2million个高分辨率彩色图像进行分类,最终取得出色的结果。在论文中作者详细描述了网... Read More
作者:Yann LeCun,Leon Botton, Yoshua Bengio,and Patrick Haffner这篇论文内容较多,这里只对部分内容进行记录:以下是对论文原文的翻译:在传统的模式识别模型中,往往会使用手动设计的特征提取器从输入中提取相关信息并去除不相关的可变性,然后一个可训练的分类器对这些提取到的特征进行分类。在本论文的方案中,标准的全连接多层网络就相当于分类器,并且该方案尽... Read More
Inception V3网络(注意,不是module了,而是network,包含多种Inception modules)主要是在V2基础上进行的改进,特点如下:将滤波器尺寸(Filter Size)较大的卷积分解成若干滤波器尺寸较小的卷积。根据作者在论文中提出的optimization ideas,大卷积总可以被分解成3*3卷积层序列,而且需要的话还可以进一步分解成更小的卷积,如n*1卷积,事实上... Read More
Inception V2网络中的代表是加入了BN(Batch Normalization)层,并且使用 2个 3*3卷积替代 1个5*5卷积的改进版,如下图所示:其特点如下:学习VGG用2个 3*3卷积代替 Inception V1中的 5*5大卷积。这样做在减少参数(3*3*2+2 –> 5*5+1)的同时可以建立更多的非线性变换,增强网络对特征的学习能力。如下图所示,2个 3*3卷积的效果与一... Read More
论文地址 在该论文中作者提出了一种被称为Inception Network的深度卷积神经网络,它由若干个Inception modules堆叠而成。Inception的主要特点是它能提高网络中计算资源的利用率,这得益于网络结构的精心设计(基于 Hebbian principle 和 the intuition of multi-scale processing ),使得网络在增加宽度和深... Read More
项目地址Abstract 该技术报告主要介绍了作者对 YOLOv1 的一系列改进措施(注意:不是对YOLOv2,但是借鉴了YOLOv2中的部分改进措施)。虽然改进后的网络较YOLOv1大一些,但是检测结果更精确,运行速度依然很快。在输入图像分辨率为320*320时,YOLOv3运行耗时22ms,mAP达到28.2,这和SSD一样精确,但是速度比SSD快三倍。当我们使用旧的检测指标0.5 ... Read More
项目链接Abstract在该论文中,作者首先介绍了对YOLOv1检测系统的各种改进措施。改进后得到的模型被称为YOLOv2,它使用了一种新颖的多尺度训练方法,使得模型可以在不同尺寸的输入上运行,并在速度和精度上很容易找到平衡。当处理速度为40FPS时,YOLOv2取得76.8mAP的成绩,超过了当时最好的检测方法Faster RCNN with ResNet和SSD接着,作者提出了一种在objec... Read More
之前的目标检测算法大都采用proposals+classifier的做法(proposal提供位置信息,分类器提供类别信息),虽然精度很高,但是速度比较慢,也可能无法进行end-to-end训练。而该论文提出的yolo网络是一个统一的single network,能够进行端到端的优化。作者说到,该结构特别快,base YOLO model可以做到每秒实时处理45帧图像。另外,yolo的smalle... Read More
8作者:Shaoqing Ren, Kaiming He, Ross Girshick, and Jian SunSPPnet、Fast R-CNN等目标检测算法已经大幅降低了目标检测网络的运行时间。可是尽管如此,仍然不能在工程上做到实时检测,这主要是因为region proposal computation耗时在整个网络用时中的占比较高。比如,Fast R-CNN如果忽略提取region pro... Read More
作者:Ross Girshick该论文提出的目标检测算法Fast Region-based Convolutional Network(Fast R-CNN)能够single-stage训练,并且可以同时学习对object proposals的分类与目标空间位置的确定,与以往的算法相比该方法在训练和测试速度、检测精度上均有较大提升。目标检测算法比较复杂主要是因为检测需要确定目标的准确位置,这样的话... Read More
作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun以前的CNNs都要求输入图像尺寸固定,这种硬性要求也许会降低识别任意尺寸图像的准确度。为避免这个问题,何凯明等人在该论文中提出了一种池化策略,“spatial pyramid pooling(SPP)“,即空间金字塔池化。带有该池化层的网络被称为SPPnet,对任何尺寸的输入图像都能生成... Read More
作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik该论文提出了一种简单且可扩展的检测算法,在VOC2012数据集上取得的mAP比当时性能最好的算法高30%。算法主要结合了两个key insights:(1)可以将高容量的卷积神经网络应用到自底向上的Region proposals(候选区域)上,以定位和分割目标(2)当带标签的训练... Read More