随笔分类 - 视觉
摘要:原理: 人眼对角点的识别通常是在一个局部的小区域或小窗口完成的。如果在各个方向上移动这个特征的小窗口,窗口内区域的灰度发生了较大的变化,那么就认为在窗口内遇到了角点。如果这个特定的窗口在图像各个方向上移动时,窗口内图像的灰度没有发生变化,那么窗口内就不存在角点;如果窗口在某一个方向移动时,窗口内图像
阅读全文
摘要:1.先将图片转换成灰度图 2.然后用两个3*3的矩阵获得x、y两个方向的偏导Gx、Gy 这个偏导不仅要计算当前这一行,还要计算前一行、后一行,并且每一行都是计算前一个位置和后一个位置的差值。注意,当前用的权重是2。 3.根据每个点两个方向的梯度计算当前位置的梯度,公式如下 4.然后设定一个阈值Gma
阅读全文
摘要:巨大的问题:resnet网络的具体结构,每一层是什么样子的,每个stage是什么样子的,为什么要这么设计??? resnet101作backbone的faster的网络结构是经过修改了的,不是简单的把fc前面的最后一层作为backbone https://github.com/Eniac-Xie/f
阅读全文
摘要:https://github.com/afantideng/R-FCN-PSROIAlign
阅读全文
摘要:对整篇paper的一个总结:https://blog.csdn.net/xbinworld/article/details/69049680 github:1.https://github.com/Dive-frank/caffe_stn 有prototxt,并且prototxt看起来写的还不错 2
阅读全文
摘要:这个是自己用的focal loss的代码和公式推导:https://github.com/zimenglan-sysu-512/Focal-Loss 这个是有retinanet:https://github.com/unsky/RetinaNet
阅读全文
摘要:正则化是为了防止过拟合,因为正则化能降低权重 caffe默认L2正则化 代码讲解的地址:http://alanse7en.github.io/caffedai-ma-jie-xi-4/ 重要的一个回答:https://stats.stackexchange.com/questions/29130/d
阅读全文
摘要:1.底层到高层的skip connection,最好是在底层的feature mappool之后加一层3*3或者1*1卷积,这样是因为可能浅层的feature map的数值范围在100-1000,高层的在1-100,这样会出现错误(具体错误看马的周报) 2.金字塔结构,输入图片的特征金字塔和feat
阅读全文
摘要:https://v.qq.com/x/page/g0530rsighw.html 有两种,121以上的都是1*1加3*3,另一种是单独的3*3
阅读全文
摘要:卷积的参数数目为:4*2*2*2 4表示输入层的4个channel,2*2表示卷积的核的大小,最后一个2表示输出层的2个channel 一个channel的卷积计算过程: 这是kernel的参数: 这是计算过程: 多个channel的卷积计算过程: 这是kernel的参数: 这是计算过程: 即对于输
阅读全文
摘要:先定义几个参数 输入图片大小 W×W Filter大小 F×F 步长 S padding的像素数 P 于是我们可以得出 N = (W − F + 2P )/S+1 输出图片大小为 N×N 这个公式的理解:以w方向为例,宽度为W(相当于W个像素点),pad相当于增加的尺寸(相当于增加了像素点),pad
阅读全文
摘要:1.ION:在conv3、conv4、conv5和context features上分别进行roi_pooling,在channel那一维进行concat 2.Hypernet:在较浅层max_pooling,中间层保持不变,较高层deconv,最后把这三个结果concat起来构成最后一层featu
阅读全文
摘要:一个batch下所有的图片一起经过整个网络,不是说一张图片经过网络后再让下一张进入网络,这样一个batch一起通过网络计算速度比一张一张这样快
阅读全文
摘要:http://blog.csdn.net/cheese_pop/article/details/51955915 将整个分成两部分,左边部分,右边部分。右边部分每次其实都是移动stride这么大,左边部分到底需要多少其实无所谓,并不影响计算。
阅读全文
摘要:1.CNN为什么可以在CV/NLP/Speech等领域都可以使用? 1. 卷积是因为输入数据的局部相关性; 2. 权值共享是因为输入数据的局部特征具有平移不变性,即在不同位置具有共性的局部特征。这样,经过多层次堆叠,低层局部特征可以抽取成高层全局特征。 3. 权值共享能够降低参数量,而且降低了网络的
阅读全文
摘要:https://zhuanlan.zhihu.com/p/26938549 RCNN实际包含两个子步骤,一是对上一步的输出向量进行分类(需要根据特征训练分类器);二是通过边界回归(bounding-box regression) 得到精确的目标区域,由于实际目标会产生多个子区域,旨在对完成分类的前景
阅读全文
摘要:https://zhuanlan.zhihu.com/p/23178423 从这个总结看的出来,用sgd时,是每个mini_batch更新一次dropout,并且前向和反向传播都是会在经过dropout处理后的神经元上进行。比如这一层有10个神经元,有5个神经元停止工作,那前向和反向都会在另外5个神
阅读全文
摘要:http://blog.csdn.net/zhikangfu/article/details/51252692 https://www.52ml.net/2734.html sift特征检测步骤: 1.尺度空间的极值检测 2.特征点定位 3.特征方向赋值 4.特征点描述 尺度空间: 在图像信息处理模
阅读全文
摘要:通过计算和统计图像局部区域的梯度直方图来构成特征,先计算图片某一区域中不同方向上梯度的值,然后进行累积,得到直方图,这个直方图呢,就可以代表这块区域了,也就是作为特征,可以输入到分类器里面了。 方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机
阅读全文