随笔分类 - 深度学习
摘要:0、问题 机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢?BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。 思考
阅读全文
摘要:1、池化层的理解 pooling池化的作用则体现在降采样:保留显著特征、降低特征维度,增大kernel的感受野。另外一点值得注意:pooling也可以提供一些旋转不变性。 池化层可对提取到的特征信息进行降维,一方面使特征图变小,简化网络计算复杂度并在一定程度上避免过拟合的出现;一方面进行特征压缩,提
阅读全文
摘要:1、梯度消失和爆炸 梯度消失:一是在深层网络中;二是采用了不合适的损失函数,比如sigmoid(导数最大为0.25,神经网络的反向传播是逐层对函数偏导相乘,因此当神经网络层数非常深的时候,最后一层产生的偏差就因为乘了很多的小于1的数而越来越小,最终就会变为0,从而导致层数比较浅的权重没有更新,这就是
阅读全文
摘要:1、过拟合问题 欠拟合:根本原因是特征维度过少,模型过于简单,导致拟合的函数无法满足训练集,误差较大; 解决方法:增加特征维度,增加训练数据; 过拟合:根本原因是特征维度过多,模型假设过于复杂,参数过多,训练数据过少,噪声过多,导致拟合的函数完美的预测训练集,但对新数据的测试集预测结果差。 过度的拟
阅读全文
摘要:主要作用: 1、跨通道的特征整合 2、特征通道的升维和降维 3、减少卷积核参数(简化模型),对于单通道feature map 用单核卷积即为乘以一个参数,而一般情况都是多核卷积多通道,实现多个feature map的线性组合 4、可以实现与全连接层等价的效果。如在faster-rcnn中用1*1*m
阅读全文
摘要:1、Deconvolution大致可以分为以下几个方面: (1)非监督学习:unsupervised learning,其实就是covolutional sparse coding:这里的deconv只是观念上和传统的conv反向,传统的conv是从图片生成feature map,而deconv是用
阅读全文
摘要:神经网络各个操作层的顺序: 1、sigmoid,tanh函数:conv -> bn -> sigmoid -> pooling 2、RELU激活函数:conv -> bn -> relu -> pooling 一般情况下,先激活函数,后pooling。但对于RELU激活函数,二者交换位置无区别。 论
阅读全文
摘要:1、为什么要用神经网络? 对于非线性分类问题,如果用多元线性回归进行分类,需要构造许多高次项,导致特征特多,学习参数过多,从而复杂度太高 。 在神经网络中引入激活函数一个重要的原因就是为了引入非线性。 2、CNN基本问题 层级结构:输入层->卷积层->激活层->池化层->卷积层->激活层->池化层-
阅读全文
摘要:CNN从90年代的LeNet开始,21世纪初沉寂了10年,直到12年AlexNet开始又再焕发第二春,从ZF Net到VGG,GoogLeNet再到ResNet和最近的DenseNet,网络越来越深,架构越来越复杂,解决反向传播时梯度消失的方法也越来越巧妙。 1、LeNet(1998) 闪光点:定义
阅读全文
摘要:1、梯度下降法 梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。 梯度下降法的优化思想:用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步
阅读全文
摘要:1、优化算法 SGD:随机梯度下降 SGD+Momentum: 基于动量的SGD(在SGD基础上做过优化) SGD+Nesterov+Momentum:基于动量,两步更新的SGD(在SGD+Momentum基础上做过优化) Adagrad:自适应地为各个参数分配不同学习速率 Adadelta: 针对
阅读全文
摘要:1、参数共享的道理 如果在图像某些地方探测到一个水平的边界是很重要的,那么在其他一些地方也会同样是有用的,这是因为图像结构具有平移不变性。所以在卷积层的输出数据体的55x55个不同位置中,就没有必要重新学习去探测一个水平边界了。 在反向传播的时候,都要计算每个神经元对它的权重的梯度,但是需要把同一个
阅读全文
摘要:1、为什么使用激活函数? 如果不用激励函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。 如果使用的话,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。 2、为什么分类问题不能使用mse损失函数
阅读全文
摘要:1、反向传播 简单的理解,反向传播的确就是复合函数的链式法则,但其在实际运算中的意义比链式法则要大的多。 链式求导十分冗余,因为很多路径被重复访问了,对于权值动则数万的深度模型中的神经网络,这样的冗余所导致的计算量是相当大的。 同样是利用链式法则,BP算法则机智地避开了这种冗余,它对于每一个路径只访
阅读全文
摘要:1、我们将要实现一种更强大的方法来解决图像分类问题,该方法可以自然地延伸到神经网络和卷积神经网络上。这种方法主要有两部分组成:一个是评分函数(score function),它是原始图像数据到类别分值的映射。另一个是损失函数(loss function),它是用来量化预测分类标签的得分与真实标签之间
阅读全文