上一页 1 2 3 4 5 6 7 8 ··· 11 下一页
摘要: Logistic Regression 同 Liner Regression 均属于广义线性模型,Liner Regression 假设 $y|x ; \theta$ 服从 Gaussian 分布,而 Logistic Regression 假设 $y|x ; \theta$ 服从 Bernoull 阅读全文
posted @ 2016-07-18 15:03 ooon 阅读(1843) 评论(0) 推荐(0) 编辑
摘要: 熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 Information Theory 。今天的主题是最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵... 阅读全文
posted @ 2016-07-16 19:50 ooon 阅读(59440) 评论(14) 推荐(7) 编辑
摘要: Bagging 全称是 Boostrap Aggregation,是除 Boosting 之外另一种集成学习的方式,之前在已经介绍过关与 Ensemble Learning 的内容与评价标准,其中“多样性”体现在应尽可能的增加基学习器的差别。Bagging 主要关注增大 “多样性”,他的做法是这样的 阅读全文
posted @ 2016-07-15 18:28 ooon 阅读(2051) 评论(0) 推荐(1) 编辑
摘要: 之前一篇写了关于基于权重的 Boosting 方法 Adaboost,本文主要讲述 Boosting 的另一种形式 Gradient Boosting ,在 Adaboost 中样本权重随着分类正确与否而在下一次迭代中动态发生改变;Gradient Boosting 并没有样本权重的概念,它也采用 阅读全文
posted @ 2016-07-13 21:39 ooon 阅读(1345) 评论(0) 推荐(0) 编辑
摘要: Boosting Boosting 是一种提升方法,将一系列弱学习器组合成为强学习器。基于样本权重的 Boosting 的工作流程是这样的,给定初始训练集构建一个基学习器,根据基学习器对训练样本的分布进行调整,使得先前学习器出错的样本收到更多关注,然后调整样本的权值进行下一个基学习器的学习,直至达到指定的迭代次数,然后将这一些列的基学习器加权组合来得到最后的强学习器。各个学习器的加权系数在算法迭代... 阅读全文
posted @ 2016-07-12 16:24 ooon 阅读(1464) 评论(0) 推荐(0) 编辑
摘要: Ensemble Learning 集成学习 就是构造若干模型并用它们的(加权预测/投票)值用于对新样本的预测。类似于多个决策者进行同一个决策。通常来说集成的效果要好于单个模型,当特征,数据,单个模型做到瓶颈时,多模型带来的提升很明显。因此集成学习广泛用于竞赛和实际应用中。集成学习中的单个模型也可以 阅读全文
posted @ 2016-07-08 19:58 ooon 阅读(1017) 评论(0) 推荐(0) 编辑
摘要: 继上篇文章决策树之 ID3 与 C4.5,本文继续讨论另一种二分决策树 Classification And Regression Tree,CART 是 Breiman 等人在 1984 年提出的,是一种应用广泛的决策树算法,不同于 ID3 与 C4.5, CART 为一种二分决策树, 每次对特征 阅读全文
posted @ 2016-07-06 16:30 ooon 阅读(23619) 评论(0) 推荐(1) 编辑
摘要: 决策树(Decision Tree)是一种基本的分类与回归方法(ID3、C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归)。决策树在分类过程中,表示的是基于特征对实例进行划分,将其归到不同的类别。决策树的主要优点是模型可读、易于理解、分类速度快、建模与预测速度快。本文主要介绍 阅读全文
posted @ 2016-07-05 14:25 ooon 阅读(9444) 评论(0) 推荐(0) 编辑
摘要: 1.朴素贝叶斯模型 朴素贝叶斯分类器是一种有监督算法,并且是一种生成模型,简单易于实现,且效果也不错,需要注意,朴素贝叶斯是一种线性模型,他是是基于贝叶斯定理的算法,贝叶斯定理的形式如下: \[P(Y|X) = \frac{P(X,Y)}{P(X)} = \frac{P(Y) \cdot P(X|Y 阅读全文
posted @ 2016-07-01 15:43 ooon 阅读(1525) 评论(0) 推荐(0) 编辑
摘要: 1. Longest Substring Without Repeating Characters 思路:需要 hashmap 辅助保存各个字符的位置,且随时更新最新位置 若第 i 个位置的字符 c 出现过,则 dp[i] = min(map.get(c)-i,dp[i+1]+1) 若没出现则 dp 阅读全文
posted @ 2016-06-30 17:02 ooon 阅读(459) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 11 下一页