摘要:
我们在训练神经网络模型时,最常用的就是梯度下降,梯度下降有一下几种方式: 1、Batch gradient descent(BGD批梯度下降) 遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度。 这种方法每更新一次参数都要把数据集里的所有样本都看一遍,计算量开销大,计算速度慢,不支 阅读全文
摘要:
训练: 特征图是51x39x256,对该图像的每点考虑9个窗口:三种候选面积(128,256,512) x 三种尺度(1:1,1:2,2:1)。这些候选窗口称为anchors。如下图: 如果图片尺寸w*h,特征图的尺寸是w/r ×h/r(由pool5层得到的尺寸,计算后得到这个r)。r是下采样率(s 阅读全文
摘要:
之前的都是用区域建议算法来产生候选框,还是挺耗时间的,所以Faster R-CNN使用CNN来产生候选框。 Faster-R-CNN算法由两大模块组成: 1.RPN候选框提取模块; 2.Fast R-CNN检测模块。 其中,RPN是全卷积神经网络,用于提取候选框;Fast R-CNN基于RPN提取的 阅读全文
摘要:
分类和位置调整都是通过全连接层(fc)实现的,设前一级数据为后一级为,全连接层参数为,尺寸,一次前向传播(forward)即为: 计算复杂度为。 将进行SVD分解,并用前t个特征值近似: 原来的前向传播分解成两步: 计算复杂度变为 。 在实现时,相当于把一个全连接层拆分成两个,中间以一个低维数据相连 阅读全文
摘要:
恢复内容开始 与R-CNN的不同: Fast R-CNN是端到端的,解决了R-CNN的速度慢、空间大的缺点。 训练: 使用5个最大池化层和5~13个不等的卷积层的三种网络进行预训练:CaffeNet,VGG_CNN_M_1024,VGG-16,使用之前要先做出如下改动: 对训练集中的图片,SS取出每 阅读全文
摘要:
当预测值与目标值相差很大时,L2 Loss的梯度为(x-t),容易产生梯度爆炸,L1 Loss的梯度为常数,通过使用Smooth L1 Loss,在预测值与目标值相差较大时,由L2 Loss转为L1 Loss可以防止梯度爆炸。 L2 loss的导数(梯度)中包含预测值与目标值的差值,当预测值和目标值 阅读全文
摘要:
R-CNN需要大量的候选框,对每个候选框都提取特征,速度很慢,无法做到实时检测,无法做到端到端。ROI pooling层实现training和testing的显著加速,并提高检测accuracy。 ROI pooling层能对不等尺寸的输入执行最大汇集以获得固定尺寸的特征映射,根据候选区域裁剪卷积特 阅读全文
摘要:
RCNN对每个候选框都提取了特征,而且对于有重复区域的候选框们,这部分重复的区域相当于不断重复提取了特征,很麻烦。所以能不能只提取一次特征呢?也就是只卷积一次。 R-CNN对候选框尺寸进行了wrap, 全都改为227x227,改变尺寸势必会影响到检测效果,所以能不能不改变尺寸? 因此SPP提出的更新 阅读全文
摘要:
可以不进行特定样本下的微调吗?可以直接采用AlexNet CNN网络的特征进行SVM训练吗? 不针对特定任务进行微调,而将CNN当成特征提取器,pool5层得到的特征是基础特征,类似于HOG、SIFT,类似于只学习到了人脸共性特征;从fc6和fc7等全连接层中所学习到的特征是针对特征任务特定样本的特 阅读全文
摘要:
测试过程: 训练过程(不连续): 1、测试 1、建议框归一化方法 经过作者一系列实验表明采用padding=16的各向异性变形即下图第二行第三列效果最好,能使mAP提升3-5%。 2、CNN(alexnet)提取特征 AlexNet不用最后的全连接层,提取出1*1*4096维的特征向量。 3、训练分 阅读全文