摘要: CNN CNN为什么比DNN在图像识别上更好 如果把图像的每个像素都当成一维特征的话,输入特征维度将会非常大,用DNN的话需要训练的参数太过庞大根本无法训练。而CNN采用了参数共享机制有效的减少了需要训练的参数的数目,而且在图像中邻近像素具有比较大的关联性,适合用卷积处理。 CNN输出尺寸计算 池化 阅读全文
posted @ 2019-06-24 22:32 xd_xumaomao 阅读(555) 评论(0) 推荐(0) 编辑
摘要: 梯度消失:梯度在反向传播的过程中趋于0 饱和:激活函数达到饱和状态,梯度趋于0 改善方法:Relu代替sigmoid,BN 1. 用ReLU取代sigmoid、tanh。 2. 加BN层 3. 残差结构 4. LSTM 1. 梯度裁剪 2. 正则 1. 激活函数选择不当。 2. 网络结构本身的问题( 阅读全文
posted @ 2019-06-24 22:13 xd_xumaomao 阅读(457) 评论(0) 推荐(0) 编辑
摘要: 牛顿法 用目标函数的二阶泰勒展开式来近似目标函数,然后对这个二阶展开式求极值就可以得到迭代公式。 优点:收敛速度快 缺点:计算复杂度大,且要求海森矩阵正定。 拟牛顿法 用正定矩阵近似海赛矩阵的逆矩阵或海赛矩阵,简化了计算的过程。 参考博客 https://blog.csdn.net/itplus/a 阅读全文
posted @ 2019-06-24 22:10 xd_xumaomao 阅读(819) 评论(0) 推荐(0) 编辑
摘要: 梯度下降法是沿着梯度下降的算法,该算法的收敛速度受梯度大小影响非常大,当梯度小时算法收敛速度非常慢。 牛顿法是通过把目标函数做二阶泰勒展开,通过求解这个近似方程来得到迭代公式,牛顿法的迭代公式中用到了二阶导数来做指导,所以牛顿法的收敛速度很快,但是由于要求二阶导,所以牛顿法的时间复杂度非常高。 拟牛 阅读全文
posted @ 2019-06-24 22:10 xd_xumaomao 阅读(1326) 评论(0) 推荐(0) 编辑
摘要: 对特征归一化可以把所有特征压缩到相同范围的区间内,常用的归一化方法主要有以下两个: 1. 线性函数归一化 2. 零均值归一化 归一化的作用: 对于用梯度下降法求解的模型可以加快算法的收敛速度 1. 加快算法收敛 2. 提高精度(特别对于需要计算距离的算法) 归一化方法:线性归一化 x = (x-mi 阅读全文
posted @ 2019-06-24 21:59 xd_xumaomao 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 1.删除含有异常值的记录 2.将异常值视为缺失值,交给缺失值处理方法来处理 3.用平均值来修正 4.不处理 阅读全文
posted @ 2019-06-24 21:51 xd_xumaomao 阅读(1331) 评论(0) 推荐(0) 编辑
摘要: 1. 当缺失数据的样本很小时,可以采用直接丢弃。 2. 用均值,众数等填充。 3. 不做处理,把缺失值当成单独一维。 由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。 估算(estimation)。最简单的办法就是 阅读全文
posted @ 2019-06-24 21:50 xd_xumaomao 阅读(1438) 评论(0) 推荐(0) 编辑
摘要: 1. 深入了解任务邻域,选出和任务相关的特征。 2. 用方差、相关系数、卡方检验、熵模型等来筛选特征。 3. 把所有的特征都用来训练一个模型,去掉权重较小的特征。 4. 用诸如L1,L2等正则化方法来筛选特征。 5. 用一些特征组合的方法(如加和,乘积,除商等)来产生高级特征。 在实际生产环境中如何 阅读全文
posted @ 2019-06-24 21:48 xd_xumaomao 阅读(648) 评论(0) 推荐(0) 编辑
摘要: bagging bagging的弱分类器之间是相互独立的,容易并行,bagging方法主要是能减少方差。 bagging对样本进行采样时采用有放回的采样(自助法),一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同,但是样本内容不同 代表算法:随机森林 boosti 阅读全文
posted @ 2019-06-24 21:48 xd_xumaomao 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 原理和作用 在训练阶段对于加入dropout层的每个神经元以概率p断开,预测阶段神经元都保持连接但要给dropout层输出乘以1-p。Dropout相当于给神经网络加入了噪声,使其不能过度依赖某些特征可以减少模型的过拟合。加入dropout后原来的神经网络可以看成多个子网络的bagging模型。 p 阅读全文
posted @ 2019-06-24 21:34 xd_xumaomao 阅读(455) 评论(0) 推荐(0) 编辑
摘要: 为什么L1正则可以得到稀疏权重,而L2正则可以防止过拟合? 角度一 L1的权值更新公式为wi = wi – η * 1, 权值每次更新都固定减少一个特定的值(学习速率),那么经过若干次迭代之后,权值就有可能减少到0。 L2的权值更新公式为wi = wi – η * wi,虽然权值不断变小,但每次减小 阅读全文
posted @ 2019-06-24 21:33 xd_xumaomao 阅读(96) 评论(0) 推荐(0) 编辑
摘要: Batch Normalization 原理 Batch Norm的思路是调整各层的激活值分布使其拥有适当的广度 。 原理:(在反向传播的过程中乘了上一层的输出,当每层的输出都小于1时就会造成梯度消失,大于1时会造成梯度爆炸)BN对每一层的输出都做了标准化使得原本会减小的activation的sca 阅读全文
posted @ 2019-06-24 21:25 xd_xumaomao 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 过拟合产生的原因? 过拟合的表现:模型在训练集上误差很小,在测试集上误差很大。 过拟合主要由两个方面决定:一是数据集,二是模型。 我认为过拟合问题目前来说只能减少不能避免。 数据集角度: 我们知道无论是机器学习还是深度学习,都是通过在训练集上做训练来最小化训练集上的损失函数来得到想要的模型,也就是说 阅读全文
posted @ 2019-06-24 21:20 xd_xumaomao 阅读(651) 评论(0) 推荐(0) 编辑
摘要: 相同点 不同点 LR基于概率论,用极大似然法来估计参数。支持向量机基于几何间隔最大化原理。 SVM只考虑决策边界附近的点,而LR考虑所有点。因此SVM对于样本类别不平衡有更好的容忍性。 SVM更适合采用核方法,因为SVM在计算决策面是只有少数样本起到作用,计算代价低。 SVM依赖数据的距离测度,所以 阅读全文
posted @ 2019-06-24 20:45 xd_xumaomao 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 均方误差损失 \[J\left( {W,b,a,y} \right) = \frac{1}{2}{\left\| {y - a} \right\|^2}\] 回归问题中,输出层一般用恒等函数,损失函数使用均方误差损失。 交叉熵损失 二分类:\[J\left( {W,b,a,y} \right) = 阅读全文
posted @ 2019-06-24 17:39 xd_xumaomao 阅读(449) 评论(0) 推荐(0) 编辑
摘要: Sigmoid $\sigma \left( z \right) = \frac{1}{{1 + {e^{ - z}}}}$,${\sigma ^`}\left( z \right) = \sigma \left( z \right)\left( {1 - \sigma \left( z \righ 阅读全文
posted @ 2019-06-24 17:01 xd_xumaomao 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 友元函数 创建友元的第一步就是将其原型放在类声明中,并在原型前面加上关键字friend 该原型意味着以下两点: 由于友元函数不是类成员函数,所以友元函数定义时不用使用Time::限定符。 用友元函数重载cout 阅读全文
posted @ 2019-06-24 12:26 xd_xumaomao 阅读(832) 评论(0) 推荐(0) 编辑
摘要: 基本用法 阅读全文
posted @ 2019-06-24 10:28 xd_xumaomao 阅读(90) 评论(0) 推荐(0) 编辑