2019 年 6月 24 日随笔档案 - xd_xumaomao

2019年6月24日

摘要： CNN CNN为什么比DNN在图像识别上更好如果把图像的每个像素都当成一维特征的话，输入特征维度将会非常大，用DNN的话需要训练的参数太过庞大根本无法训练。而CNN采用了参数共享机制有效的减少了需要训练的参数的数目，而且在图像中邻近像素具有比较大的关联性，适合用卷积处理。 CNN输出尺寸计算池化阅读全文

posted @ 2019-06-24 22:32 xd_xumaomao 阅读(555) 评论(0) 推荐(0) 编辑

梯度消失，梯度爆炸

摘要：梯度消失：梯度在反向传播的过程中趋于0 饱和：激活函数达到饱和状态，梯度趋于0 改善方法：Relu代替sigmoid，BN 1. 用ReLU取代sigmoid、tanh。 2. 加BN层 3. 残差结构 4. LSTM 1. 梯度裁剪 2. 正则 1. 激活函数选择不当。 2. 网络结构本身的问题（阅读全文

posted @ 2019-06-24 22:13 xd_xumaomao 阅读(457) 评论(0) 推荐(0) 编辑

二阶优化方法

摘要：牛顿法用目标函数的二阶泰勒展开式来近似目标函数，然后对这个二阶展开式求极值就可以得到迭代公式。优点：收敛速度快缺点：计算复杂度大，且要求海森矩阵正定。拟牛顿法用正定矩阵近似海赛矩阵的逆矩阵或海赛矩阵，简化了计算的过程。参考博客 https://blog.csdn.net/itplus/a 阅读全文

posted @ 2019-06-24 22:10 xd_xumaomao 阅读(819) 评论(0) 推荐(0) 编辑

梯度下降法，牛顿法，拟牛顿法区别

摘要：梯度下降法是沿着梯度下降的算法，该算法的收敛速度受梯度大小影响非常大，当梯度小时算法收敛速度非常慢。牛顿法是通过把目标函数做二阶泰勒展开，通过求解这个近似方程来得到迭代公式，牛顿法的迭代公式中用到了二阶导数来做指导，所以牛顿法的收敛速度很快，但是由于要求二阶导，所以牛顿法的时间复杂度非常高。拟牛阅读全文

posted @ 2019-06-24 22:10 xd_xumaomao 阅读(1326) 评论(0) 推荐(0) 编辑

特征归一化（数值特征）

摘要：对特征归一化可以把所有特征压缩到相同范围的区间内，常用的归一化方法主要有以下两个： 1. 线性函数归一化 2. 零均值归一化归一化的作用：对于用梯度下降法求解的模型可以加快算法的收敛速度 1. 加快算法收敛 2. 提高精度（特别对于需要计算距离的算法）归一化方法：线性归一化 x = (x-mi 阅读全文

posted @ 2019-06-24 21:59 xd_xumaomao 阅读(493) 评论(0) 推荐(0) 编辑

异常值的处理方法

摘要： 1.删除含有异常值的记录 2.将异常值视为缺失值，交给缺失值处理方法来处理 3.用平均值来修正 4.不处理阅读全文

posted @ 2019-06-24 21:51 xd_xumaomao 阅读(1331) 评论(0) 推荐(0) 编辑

如何解决数据缺失的情况

摘要： 1. 当缺失数据的样本很小时，可以采用直接丢弃。 2. 用均值，众数等填充。 3. 不做处理，把缺失值当成单独一维。由于调查、编码和录入误差，数据中可能存在一些无效值和缺失值，需要给予适当的处理。常用的处理方法有：估算，整例删除，变量删除和成对删除。估算(estimation)。最简单的办法就是阅读全文

posted @ 2019-06-24 21:50 xd_xumaomao 阅读(1438) 评论(0) 推荐(0) 编辑

特征选择、特征重要性分析

摘要： 1. 深入了解任务邻域，选出和任务相关的特征。 2. 用方差、相关系数、卡方检验、熵模型等来筛选特征。 3. 把所有的特征都用来训练一个模型，去掉权重较小的特征。 4. 用诸如L1，L2等正则化方法来筛选特征。 5. 用一些特征组合的方法（如加和，乘积，除商等）来产生高级特征。在实际生产环境中如何阅读全文

posted @ 2019-06-24 21:48 xd_xumaomao 阅读(648) 评论(0) 推荐(0) 编辑

集成学习

摘要： bagging bagging的弱分类器之间是相互独立的，容易并行，bagging方法主要是能减少方差。 bagging对样本进行采样时采用有放回的采样（自助法），一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同，但是样本内容不同代表算法：随机森林 boosti 阅读全文

posted @ 2019-06-24 21:48 xd_xumaomao 阅读(204) 评论(0) 推荐(0) 编辑

dropout

摘要：原理和作用在训练阶段对于加入dropout层的每个神经元以概率p断开，预测阶段神经元都保持连接但要给dropout层输出乘以1-p。Dropout相当于给神经网络加入了噪声，使其不能过度依赖某些特征可以减少模型的过拟合。加入dropout后原来的神经网络可以看成多个子网络的bagging模型。 p 阅读全文

posted @ 2019-06-24 21:34 xd_xumaomao 阅读(455) 评论(0) 推荐(0) 编辑

L1正则化和L2正则化

摘要：为什么L1正则可以得到稀疏权重，而L2正则可以防止过拟合？角度一 L1的权值更新公式为wi = wi – η * 1, 权值每次更新都固定减少一个特定的值(学习速率)，那么经过若干次迭代之后，权值就有可能减少到0。 L2的权值更新公式为wi = wi – η * wi，虽然权值不断变小，但每次减小阅读全文

posted @ 2019-06-24 21:33 xd_xumaomao 阅读(96) 评论(0) 推荐(0) 编辑

Batch Normalization、Layer Normalization、Weight Normalization

摘要： Batch Normalization 原理 Batch Norm的思路是调整各层的激活值分布使其拥有适当的广度。原理：（在反向传播的过程中乘了上一层的输出，当每层的输出都小于1时就会造成梯度消失，大于1时会造成梯度爆炸）BN对每一层的输出都做了标准化使得原本会减小的activation的sca 阅读全文

posted @ 2019-06-24 21:25 xd_xumaomao 阅读(323) 评论(0) 推荐(0) 编辑

过拟合总结

摘要：过拟合产生的原因？过拟合的表现：模型在训练集上误差很小，在测试集上误差很大。过拟合主要由两个方面决定：一是数据集，二是模型。我认为过拟合问题目前来说只能减少不能避免。数据集角度：我们知道无论是机器学习还是深度学习，都是通过在训练集上做训练来最小化训练集上的损失函数来得到想要的模型，也就是说阅读全文

posted @ 2019-06-24 21:20 xd_xumaomao 阅读(651) 评论(0) 推荐(0) 编辑

LR和SVM区别

摘要：相同点不同点 LR基于概率论，用极大似然法来估计参数。支持向量机基于几何间隔最大化原理。 SVM只考虑决策边界附近的点，而LR考虑所有点。因此SVM对于样本类别不平衡有更好的容忍性。 SVM更适合采用核方法，因为SVM在计算决策面是只有少数样本起到作用，计算代价低。 SVM依赖数据的距离测度，所以阅读全文

posted @ 2019-06-24 20:45 xd_xumaomao 阅读(179) 评论(0) 推荐(0) 编辑

常用损失函数

摘要：均方误差损失 \[J\left( {W,b,a,y} \right) = \frac{1}{2}{\left\| {y - a} \right\|^2}\] 回归问题中，输出层一般用恒等函数，损失函数使用均方误差损失。交叉熵损失二分类：\[J\left( {W,b,a,y} \right) = 阅读全文

posted @ 2019-06-24 17:39 xd_xumaomao 阅读(449) 评论(0) 推荐(0) 编辑

常用激活函数

摘要： Sigmoid $\sigma \left( z \right) = \frac{1}{{1 + {e^{ - z}}}}$，${\sigma ^`}\left( z \right) = \sigma \left( z \right)\left( {1 - \sigma \left( z \righ 阅读全文

posted @ 2019-06-24 17:01 xd_xumaomao 阅读(260) 评论(0) 推荐(0) 编辑

友元(运算符重载深入)

摘要：友元函数创建友元的第一步就是将其原型放在类声明中，并在原型前面加上关键字friend 该原型意味着以下两点：由于友元函数不是类成员函数，所以友元函数定义时不用使用Time::限定符。用友元函数重载cout 阅读全文

posted @ 2019-06-24 12:26 xd_xumaomao 阅读(832) 评论(0) 推荐(0) 编辑

运算符重载

摘要：基本用法阅读全文

posted @ 2019-06-24 10:28 xd_xumaomao 阅读(90) 评论(0) 推荐(0) 编辑

xd_xumaomao

公告