随笔分类 -  机器学习优化

摘要:熵:可以表示一个事件A的自信息量,也就是A包含多少信息。 KL散度:可以用来表示从事件A的角度来看,事件B有多大不同。 交叉熵:可以用来表示从事件A的角度来看,如何描述事件B。 一种信息论的解释是: 熵的意义是对A事件中的随机变量进行编码所需的最小字节数。 KL散度的意义是“额外所需的编码长度”如果 阅读全文
posted @ 2019-10-17 20:50 nxf_rabbit75 阅读(477) 评论(0) 推荐(0) 编辑
摘要:1.余弦距离 适用场景:余弦相似度衡量的是维度间取值方向的一致性,注重维度之间的差异,不注重数值上的差异。 举例:如某T恤从100块降到了50块(A(100,50)),某西装从1000块降到了500块(B(1000,500)),那么T恤和西装都是降价了50%,两者的价格变动趋势一致,可以用余弦相似度 阅读全文
posted @ 2019-09-30 15:21 nxf_rabbit75 阅读(3129) 评论(0) 推荐(0) 编辑
摘要:在约束优化问题中,常常用拉格朗日对偶性来将原始问题转为对偶问题,通过解对偶问题的解来得到原始问题的解。 1.为什么要利用对偶? 首先要明确,对偶问题的解不一定直接等于原问题的解(弱对偶),但是对偶问题有两点性质: 无论原始问题是否是凸的,对偶问题都是凸优化问题 当Lagrange对偶问题的强对偶性成 阅读全文
posted @ 2019-09-03 15:33 nxf_rabbit75 阅读(921) 评论(0) 推荐(0) 编辑
摘要:一、无约束优化 对于无约束的优化问题,直接令梯度等于0求解。 如果一个函数f是凸函数,那么可以直接通过f(x)的梯度等于0来求得全局极小值点。 二、有约束优化 若f(x)h(x)g(x)三个函数都是线性函数,则该优化问题称为线性规划。若任意一个是非线性函数,则称为非线性规划。 若目标 阅读全文
posted @ 2019-09-03 14:40 nxf_rabbit75 阅读(3280) 评论(0) 推荐(0) 编辑
摘要:以二元函数为例,f(x,y),对于任意单位方向u,假设ux轴的夹角,那么函数f(x,y)u这个方向上的变化率为: $f_x(x,y) \cos \alpha + f_y(x,y) \sin \alpha=\nabla f(x,y)^T\begin{pmatrix}f_x( 阅读全文
posted @ 2019-07-24 19:29 nxf_rabbit75 阅读(2112) 评论(0) 推荐(0) 编辑
摘要:1.bagging减少variance Bagging对样本重采样,对每一重采样得到的子样本集训练一个模型,最后取平均。由于子样本集的相似性以及使用的是同种模型,因此各模型有近似相等的bias和variance(事实上,各模型的分布也近似相同,但不独立),所以bagging后的bias和单个子模型的 阅读全文
posted @ 2019-07-10 16:51 nxf_rabbit75 阅读(1088) 评论(0) 推荐(0) 编辑
摘要:0范数:向量中非零元素的个数。 1范数:为绝对值之和。1范数和0范数可以实现稀疏,1因具有比L0更好的优化求解特性而被广泛应用。 2范数:就是通常意义上的模,L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的正则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同, 阅读全文
posted @ 2019-03-25 11:05 nxf_rabbit75 阅读(4308) 评论(0) 推荐(1) 编辑
摘要:AUC(Area under Curve):Roc曲线下的面积,介于0.1和1之间。Auc作为数值可以直观的评价分类器的好坏,值越大越好。 首先AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大, 阅读全文
posted @ 2019-03-24 00:45 nxf_rabbit75 阅读(3936) 评论(1) 推荐(0) 编辑
摘要:1. 过拟合 欠拟合 过拟合:在训练集(training set)上表现好,但是在测试集上效果差,也就是说在已知的数据集合中非常好,但是在添加一些新的数据进来训练效果就会差很多,造成这样的原因是考虑影响因素太多,超出自变量的维度过于多了; 欠拟合:模型拟合不够,在训练集(training set)上 阅读全文
posted @ 2019-03-23 11:53 nxf_rabbit75 阅读(985) 评论(0) 推荐(0) 编辑
摘要:梯度检验是一种对求导结果进行数值检验的方法,该方法可以验证求导代码是否正确。 1. 数学原理 考虑我们想要最小化以 θ 为自变量的目标函数 J(θ)(θ 可以为标量和可以为矢量,在 Numpy 的编程环境下,处理是一样的),迭代梯度更新公式为: 可以以sigmoid函数为例, 其导数形式为 我们可以 阅读全文
posted @ 2019-03-20 14:43 nxf_rabbit75 阅读(1589) 评论(1) 推荐(0) 编辑
摘要:一、AIC(Akaike information Criterion)准则 二、BIC(Bayesian information Criterion)准则 参考文献: 【1】AIC与BIC区别 阅读全文
posted @ 2019-03-19 20:01 nxf_rabbit75 阅读(2151) 评论(0) 推荐(0) 编辑
摘要:损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。通常表示为如下:(整个式子表示的意思是找到使目标函数最小时的θ值。) λ=1C 一、分类损失函数 1.二分类损失函数 阅读全文
posted @ 2019-02-26 22:52 nxf_rabbit75 阅读(2936) 评论(0) 推荐(1) 编辑
摘要:梯度的方向 梯度:如果函数是一维的变量,则梯度就是导数的方向;如果是大于一维的,梯度就是在这个点的法向量,并指向数值更高的等值线。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y) 梯度上升:如果我们需要求解损 阅读全文
posted @ 2019-02-26 20:22 nxf_rabbit75 阅读(1918) 评论(0) 推荐(0) 编辑
摘要:PLA可以解决线性分类问题,那非线性问题怎么解决? 1、手动非线性转换 2、核方法 3、神经网络 无须手动设计非线性转换,能够让模型仔细学习 阅读全文
posted @ 2019-02-23 14:13 nxf_rabbit75 阅读(2322) 评论(0) 推荐(0) 编辑
摘要:分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE、R-Squared。 MSE和MAE适用于误差相对明显的时候,大的误差也有比较高的权重,RMSE则是针对误差不是很明显的时候;MAE是一个线性的指标,所有个体差异在平均值上均等加权,所以它更加凸显出异常值,相比MSE; 阅读全文
posted @ 2019-02-21 22:41 nxf_rabbit75 阅读(27727) 评论(1) 推荐(2) 编辑
摘要:1.评价指标的局限性 问题1 准确性的局限性 准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷。比如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。 解决方法:可以使用平均 阅读全文
posted @ 2018-12-20 20:26 nxf_rabbit75 阅读(1733) 评论(0) 推荐(0) 编辑
摘要:L0范数:向量中非0元素的个数 L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择 L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合 一、L0正则化 通过引入L0正则项,我们可以使模型稀疏化且易于解释,并且在某种意义上实现了「特征选择」。这看 阅读全文
posted @ 2018-11-13 20:08 nxf_rabbit75 阅读(3599) 评论(0) 推荐(1) 编辑
摘要:一、激活函数 1.什么是激活函数 激活函数: 就是在神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。 2.为什么要有激活函数 如果不用激活函数,每一层的输出都是上一层的线性组合,从而导致整个神经网络的输出为神经网络输入的线性组合,无法逼近任意函数。 3.激活函数的特性 非线性 可微性: 阅读全文
posted @ 2018-07-07 09:42 nxf_rabbit75 阅读(10888) 评论(0) 推荐(5) 编辑
摘要:线性回归 误差是测量值与真实值的差值,服从X~N(0,sig^2) 高斯+最大似然估计推出最小二乘法: 阅读全文
posted @ 2018-04-19 16:47 nxf_rabbit75 阅读(232) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示