07 2016 档案

摘要:本文承接上一篇 约束优化方法之拉格朗日乘子法与KKT条件,将详解一些拉格朗日对偶的内容。都是一些在优化理论中比较简单的问题或者一些特例,复杂的没见过,但是简单的刚接触都感觉如洪水猛兽一般,所以当真是学海无涯。 在优化理论中,目标函数 $f(x)$ 会有多种形式:如果目标函数和约束条件都为变量 $x$ 的线性函数, 称该问题为线性规划; 如果目标函数为二次函数, 约束条件为线性函数, 称该最优化问题... 阅读全文
posted @ 2016-07-31 19:35 ooon 阅读(30434) 评论(7) 推荐(12) 编辑
摘要:引言 本篇文章将详解带有约束条件的最优化问题,约束条件分为等式约束与不等式约束,对于等式约束的优化问题,可以直接应用拉格朗日乘子法去求取最优值;对于含有不等式约束的优化问题,可以转化为在满足 KKT 约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解,只有在凸优化的情况下,才能保证得到的是最优解,所以本文称拉格朗日乘子法得到的为可行解,其实就是局部极小值,接下来从无约束优化开始一一讲... 阅读全文
posted @ 2016-07-30 15:59 ooon 阅读(90778) 评论(12) 推荐(43) 编辑
摘要:机器学习中一个重要的话题便是模型的泛化能力,泛化能力强的模型才是好模型,对于训练好的模型,若在训练集表现差,不必说在测试集表现同样会很差,这可能是欠拟合导致;若模型在训练集表现非常好,却在测试集上差强人意,则这便是过拟合导致的,过拟合与欠拟合也可以用 Bias 与 Variance 的角度来解释,欠拟合会导致高 Bias ,过拟合会导致高 Variance ,所以模型需要在 Bias 与 Vari... 阅读全文
posted @ 2016-07-28 18:55 ooon 阅读(9135) 评论(0) 推荐(0) 编辑
摘要:有监督学习中,预测误差的来源主要有两部分,分别为 bias 与 variance,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助于我们诊断模型的错误,避免 over-fitting 或者 under-fitting. 在统计与机器学习领域权衡 Bias 与 Variance 是一项重要的任务,因为他可以使得用有限训练数据训... 阅读全文
posted @ 2016-07-27 16:02 ooon 阅读(18682) 评论(1) 推荐(2) 编辑
摘要:信息论(Information Theory)是概率论与数理统计的一个分枝。用于信息处理、信息熵、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩和相关课题。本文主要罗列一些基于熵的概念及其意义,注意本文罗列的所有 $\log$ 都是以 2 为底的。 信息熵 在物理界中熵是描述事物无序性的参 阅读全文
posted @ 2016-07-26 16:15 ooon 阅读(9711) 评论(0) 推荐(0) 编辑
摘要:之前写的一篇感觉太 Naive ,这里重新写一篇作为总结。Logistic 与 Softmax 都是一种概率判别模型(PRML p203),Softmax 通常用在 Neural Network 里最后全连接层 ,Logistic 在业界更是普及,因为简单有效、便于并行、计算量小快,适合大规模数据等优点,而且采用 SGD 的 Logistic 相当于直接 Online Learning ,非常方便... 阅读全文
posted @ 2016-07-21 10:35 ooon 阅读(2070) 评论(0) 推荐(1) 编辑
摘要:Logistic Regression 同 Liner Regression 均属于广义线性模型,Liner Regression 假设 $y|x ; \theta$ 服从 Gaussian 分布,而 Logistic Regression 假设 $y|x ; \theta$ 服从 Bernoull 阅读全文
posted @ 2016-07-18 15:03 ooon 阅读(1843) 评论(0) 推荐(0) 编辑
摘要:熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 Information Theory 。今天的主题是最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵... 阅读全文
posted @ 2016-07-16 19:50 ooon 阅读(59442) 评论(14) 推荐(7) 编辑
摘要:Bagging 全称是 Boostrap Aggregation,是除 Boosting 之外另一种集成学习的方式,之前在已经介绍过关与 Ensemble Learning 的内容与评价标准,其中“多样性”体现在应尽可能的增加基学习器的差别。Bagging 主要关注增大 “多样性”,他的做法是这样的 阅读全文
posted @ 2016-07-15 18:28 ooon 阅读(2051) 评论(0) 推荐(1) 编辑
摘要:之前一篇写了关于基于权重的 Boosting 方法 Adaboost,本文主要讲述 Boosting 的另一种形式 Gradient Boosting ,在 Adaboost 中样本权重随着分类正确与否而在下一次迭代中动态发生改变;Gradient Boosting 并没有样本权重的概念,它也采用 阅读全文
posted @ 2016-07-13 21:39 ooon 阅读(1345) 评论(0) 推荐(0) 编辑
摘要:Boosting Boosting 是一种提升方法,将一系列弱学习器组合成为强学习器。基于样本权重的 Boosting 的工作流程是这样的,给定初始训练集构建一个基学习器,根据基学习器对训练样本的分布进行调整,使得先前学习器出错的样本收到更多关注,然后调整样本的权值进行下一个基学习器的学习,直至达到指定的迭代次数,然后将这一些列的基学习器加权组合来得到最后的强学习器。各个学习器的加权系数在算法迭代... 阅读全文
posted @ 2016-07-12 16:24 ooon 阅读(1464) 评论(0) 推荐(0) 编辑
摘要:Ensemble Learning 集成学习 就是构造若干模型并用它们的(加权预测/投票)值用于对新样本的预测。类似于多个决策者进行同一个决策。通常来说集成的效果要好于单个模型,当特征,数据,单个模型做到瓶颈时,多模型带来的提升很明显。因此集成学习广泛用于竞赛和实际应用中。集成学习中的单个模型也可以 阅读全文
posted @ 2016-07-08 19:58 ooon 阅读(1017) 评论(0) 推荐(0) 编辑
摘要:继上篇文章决策树之 ID3 与 C4.5,本文继续讨论另一种二分决策树 Classification And Regression Tree,CART 是 Breiman 等人在 1984 年提出的,是一种应用广泛的决策树算法,不同于 ID3 与 C4.5, CART 为一种二分决策树, 每次对特征 阅读全文
posted @ 2016-07-06 16:30 ooon 阅读(23619) 评论(0) 推荐(1) 编辑
摘要:决策树(Decision Tree)是一种基本的分类与回归方法(ID3、C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归)。决策树在分类过程中,表示的是基于特征对实例进行划分,将其归到不同的类别。决策树的主要优点是模型可读、易于理解、分类速度快、建模与预测速度快。本文主要介绍 阅读全文
posted @ 2016-07-05 14:25 ooon 阅读(9444) 评论(0) 推荐(0) 编辑
摘要:1.朴素贝叶斯模型 朴素贝叶斯分类器是一种有监督算法,并且是一种生成模型,简单易于实现,且效果也不错,需要注意,朴素贝叶斯是一种线性模型,他是是基于贝叶斯定理的算法,贝叶斯定理的形式如下: \[P(Y|X) = \frac{P(X,Y)}{P(X)} = \frac{P(Y) \cdot P(X|Y 阅读全文
posted @ 2016-07-01 15:43 ooon 阅读(1525) 评论(0) 推荐(0) 编辑