2016 年 7月随笔档案 - ooon

摘要：本文承接上一篇约束优化方法之拉格朗日乘子法与KKT条件，将详解一些拉格朗日对偶的内容。都是一些在优化理论中比较简单的问题或者一些特例，复杂的没见过，但是简单的刚接触都感觉如洪水猛兽一般，所以当真是学海无涯。在优化理论中，目标函数

$f(x)$ 会有多种形式：如果目标函数和约束条件都为变量

$x$ 的线性函数, 称该问题为线性规划；如果目标函数为二次函数, 约束条件为线性函数, 称该最优化问题... 阅读全文

posted @ 2016-07-31 19:35 ooon 阅读(30653) 评论(7) 推荐(12) 编辑

摘要：引言本篇文章将详解带有约束条件的最优化问题，约束条件分为等式约束与不等式约束，对于等式约束的优化问题，可以直接应用拉格朗日乘子法去求取最优值；对于含有不等式约束的优化问题，可以转化为在满足 KKT 约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解，只有在凸优化的情况下，才能保证得到的是最优解，所以本文称拉格朗日乘子法得到的为可行解，其实就是局部极小值，接下来从无约束优化开始一一讲... 阅读全文

posted @ 2016-07-30 15:59 ooon 阅读(91680) 评论(12) 推荐(43) 编辑

over-fitting、under-fitting 与 regularization

摘要：机器学习中一个重要的话题便是模型的泛化能力，泛化能力强的模型才是好模型，对于训练好的模型，若在训练集表现差，不必说在测试集表现同样会很差，这可能是欠拟合导致；若模型在训练集表现非常好，却在测试集上差强人意，则这便是过拟合导致的，过拟合与欠拟合也可以用 Bias 与 Variance 的角度来解释，欠拟合会导致高 Bias ，过拟合会导致高 Variance ，所以模型需要在 Bias 与 Vari... 阅读全文

posted @ 2016-07-28 18:55 ooon 阅读(9173) 评论(0) 推荐(0) 编辑

理解 Bias 与 Variance 之间的权衡

摘要：有监督学习中，预测误差的来源主要有两部分，分别为 bias 与 variance，模型的性能取决于 bias 与 variance 的 tradeoff ，理解 bias 与 variance 有助于我们诊断模型的错误，避免 over-fitting 或者 under-fitting. 在统计与机器学习领域权衡 Bias 与 Variance 是一项重要的任务，因为他可以使得用有限训练数据训... 阅读全文

posted @ 2016-07-27 16:02 ooon 阅读(18769) 评论(1) 推荐(2) 编辑

信息熵 Information Theory

摘要：信息论（Information Theory）是概率论与数理统计的一个分枝。用于信息处理、信息熵、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩和相关课题。本文主要罗列一些基于熵的概念及其意义，注意本文罗列的所有

$\log$ 都是以 2 为底的。信息熵在物理界中熵是描述事物无序性的参阅读全文

posted @ 2016-07-26 16:15 ooon 阅读(9823) 评论(0) 推荐(0) 编辑

Logistic 与 softmax

摘要：之前写的一篇感觉太 Naive ，这里重新写一篇作为总结。Logistic 与 Softmax 都是一种概率判别模型（PRML p203），Softmax 通常用在 Neural Network 里最后全连接层，Logistic 在业界更是普及，因为简单有效、便于并行、计算量小快，适合大规模数据等优点，而且采用 SGD 的 Logistic 相当于直接 Online Learning ，非常方便... 阅读全文

posted @ 2016-07-21 10:35 ooon 阅读(2086) 评论(0) 推荐(1) 编辑

广义线性模型 GLM

摘要：Logistic Regression 同 Liner Regression 均属于广义线性模型，Liner Regression 假设

$y|x ; \theta$ 服从 Gaussian 分布，而 Logistic Regression 假设

$y|x ; \theta$ 服从 Bernoull 阅读全文

posted @ 2016-07-18 15:03 ooon 阅读(1858) 评论(0) 推荐(0) 编辑

最大熵模型 Maximum Entropy Model

摘要：熵的概念在统计学习与机器学习中真是很重要，熵的介绍在这里：信息熵 Information Theory 。今天的主题是最大熵模型（Maximum Entropy Model，以下简称MaxEnt），MaxEnt 是概率模型学习中一个准则，其思想为：在学习概率模型时，所有可能的模型中熵最大的模型是最好的模型；若概率模型需要满足一些约束，则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵... 阅读全文

posted @ 2016-07-16 19:50 ooon 阅读(60004) 评论(14) 推荐(7) 编辑

Ensemble Learning 之 Bagging 与 Random Forest

摘要：Bagging 全称是 Boostrap Aggregation，是除 Boosting 之外另一种集成学习的方式，之前在已经介绍过关与 Ensemble Learning 的内容与评价标准，其中“多样性”体现在应尽可能的增加基学习器的差别。Bagging 主要关注增大 “多样性”，他的做法是这样的阅读全文

posted @ 2016-07-15 18:28 ooon 阅读(2068) 评论(0) 推荐(1) 编辑

Ensemble Learning 之 Gradient Boosting 与 GBDT

摘要：之前一篇写了关于基于权重的 Boosting 方法 Adaboost，本文主要讲述 Boosting 的另一种形式 Gradient Boosting ，在 Adaboost 中样本权重随着分类正确与否而在下一次迭代中动态发生改变；Gradient Boosting 并没有样本权重的概念，它也采用阅读全文

posted @ 2016-07-13 21:39 ooon 阅读(1378) 评论(0) 推荐(0) 编辑

Ensemble Learning 之 Adaboost

摘要：Boosting Boosting 是一种提升方法，将一系列弱学习器组合成为强学习器。基于样本权重的 Boosting 的工作流程是这样的，给定初始训练集构建一个基学习器，根据基学习器对训练样本的分布进行调整，使得先前学习器出错的样本收到更多关注，然后调整样本的权值进行下一个基学习器的学习，直至达到指定的迭代次数，然后将这一些列的基学习器加权组合来得到最后的强学习器。各个学习器的加权系数在算法迭代... 阅读全文

posted @ 2016-07-12 16:24 ooon 阅读(1467) 评论(0) 推荐(0) 编辑

集成学习概述

摘要：Ensemble Learning 集成学习就是构造若干模型并用它们的（加权预测/投票）值用于对新样本的预测。类似于多个决策者进行同一个决策。通常来说集成的效果要好于单个模型，当特征，数据，单个模型做到瓶颈时，多模型带来的提升很明显。因此集成学习广泛用于竞赛和实际应用中。集成学习中的单个模型也可以阅读全文

posted @ 2016-07-08 19:58 ooon 阅读(1043) 评论(0) 推荐(0) 编辑

决策树之 CART

摘要：继上篇文章决策树之 ID3 与 C4.5，本文继续讨论另一种二分决策树 Classification And Regression Tree，CART 是 Breiman 等人在 1984 年提出的，是一种应用广泛的决策树算法，不同于 ID3 与 C4.5, CART 为一种二分决策树，每次对特征阅读全文

posted @ 2016-07-06 16:30 ooon 阅读(23853) 评论(0) 推荐(1) 编辑

用于分类的决策树(Decision Tree)-ID3 C4.5

摘要：决策树（Decision Tree）是一种基本的分类与回归方法（ID3、C4.5和基于 Gini 的 CART 可用于分类，CART还可用于回归）。决策树在分类过程中,表示的是基于特征对实例进行划分，将其归到不同的类别。决策树的主要优点是模型可读、易于理解、分类速度快、建模与预测速度快。本文主要介绍阅读全文

posted @ 2016-07-05 14:25 ooon 阅读(9487) 评论(0) 推荐(0) 编辑

朴素贝叶斯（Naive Bayes）

摘要：1.朴素贝叶斯模型朴素贝叶斯分类器是一种有监督算法，并且是一种生成模型，简单易于实现，且效果也不错，需要注意，朴素贝叶斯是一种线性模型，他是是基于贝叶斯定理的算法，贝叶斯定理的形式如下： \[P(Y|X) = \frac{P(X,Y)}{P(X)} = \frac{P(Y) \cdot P(X|Y 阅读全文

posted @ 2016-07-01 15:43 ooon 阅读(1546) 评论(0) 推荐(0) 编辑

07 2016 档案

公告