摘要: 本个帖子继半监督学习算法(http://www.cnblogs.com/liqizhou/archive/2012/05/11/2496155.html) 最初的协同训练算法(或称为标准协同训练算法)是A. Blum和T. Mitchell [BlumM98] 在 1998年提出的。他们假设数据集有两个充分冗余(sufficient and redundant)的视图(view),即两个满足下述条件的属性集:第一,每个属性集都足以描述该问题,也就是说,如果训练例足够,在每个属性集上都足以学得一个强学习器;第二,在给定标记时,每个属性集都条件独立于另一个属性集。A. Blum和T. Mit... 阅读全文
posted @ 2012-05-11 15:18 Liqizhou 阅读(18087) 评论(1) 推荐(0) 编辑
摘要: 最近的一段时间一直在学习半监督学习算法,目前,国内的南京大学周志华老师是这方面的泰斗,写了很多这方面牛的文章,可以参考一下他的主页:http://cs.nju.edu.cn/zhouzh/。在国内的学术界周老师一直是我比较钦佩的人之一。下面贴出来的文章出自周老师之手,通俗易懂。受益匪浅。。1. 引言 在传统的监督学习中,学习器通过对大量有标记的(labeled)训练例进行学习,从而建立模型用于预测未见示例的标记。这里的“标记”(label)是指示例所对应的输出,在分类问题中标记就是示例的类别,而在回归问题中标记就是示例所对应的实值输出。随着数据收集和存储技术的飞速发展,收集大量未标记... 阅读全文
posted @ 2012-05-11 15:15 Liqizhou 阅读(35840) 评论(4) 推荐(5) 编辑
摘要: SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。我拜读了一下,下面先说讲义上对此方法的总结。首先回到我们前面一直悬而未解的问题,对偶函数最后的优化问题:要解决的是在参数上求最大值W的问题,至于 阅读全文
posted @ 2012-05-11 14:27 Liqizhou 阅读(10343) 评论(2) 推荐(1) 编辑
摘要: “探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助用户清楚的了解和快速构建适合自己的推荐引擎。信息发现如今已经进入了一个数据爆炸的时代,随着 Web 2.0 的发展, Web 已经变成数据分享的平台,那么,如何让人们在海量的数据中想要找到他们需要的信 阅读全文
posted @ 2012-05-11 14:04 Liqizhou 阅读(10807) 评论(0) 推荐(2) 编辑
摘要: 3.1 线性不可以分我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数来将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。看下面两张图:可以看到一个离群点(可能是噪声)可以造成超平面的移动,间隔缩小,可见以前的模型对噪声非常敏感。再有甚者,如果离群点在另外一个类中,那么这时候就是线性不可分了。这时候我们应该允许一些点游离并在在模型中违背限制条件(函数间隔大于1)。我们设计得到新的模型如下(也称软间隔):引入非负参数后(称为松弛变量),就 阅读全文
posted @ 2012-05-11 12:36 Liqizhou 阅读(44208) 评论(0) 推荐(6) 编辑
摘要: 2 拉格朗日对偶(Lagrange duality) 先抛开上面的二次规划问题,先来看看存在等式约束的极值问题求法,比如下面的最优化问题: 目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为 L是等式约束的个数。 然后分别对w和求偏导,使得偏导数等于0,然后解出w和。至于为什么引入拉格朗日算子可以求出极值,原因是f(w)的dw变化方向受其他不等式的约束,dw的变化方向与f(w)的梯度垂直时才能获得极值,而且在极值处,f(w)的梯度与其他等式梯度的线性组合平行,因此他们之间存在线性关系。(参考《最优化与KKT条件》)然后我们探讨有不等式约束的极 阅读全文
posted @ 2012-05-11 11:30 Liqizhou 阅读(38545) 评论(8) 推荐(6) 编辑
摘要: SVM是支持向量机从诞生至今才10多年,发展史虽短,但其理论研究和算法实现方面却都取得了突破性进展,有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景是密不可分的。我看了一下网上的帖子和有关的资料,目前关于SVM大约有3到4个版本,但在网上到处都是转载的内容,最后谁叶不知原稿人是谁。svm主要分有4个问题 1.问题的提出 2.拉格朗日对偶问题。 3.核函数问题。 4.二次规划问题。1.问题的提出支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲... 阅读全文
posted @ 2012-05-11 10:38 Liqizhou 阅读(10023) 评论(2) 推荐(9) 编辑
摘要: EM 算法是机器学习中比较重要的算法,可以用来做聚类。其EM的思想在才是最重要(不断的优化下界来逼近上界)。当我们面临二个参数需要优化的时候,只要符合EM的不等式(凸函数),可以采用这种思想,先定一个参数,在优化另一个参数。以前在读这个算法时,就费了很大的力气,本想写出来的,但看到别人博客里写了EM算法,且写的比较通俗易懂,深入浅出,即使你以前没有看过EM算法,只要你静下心来,一定会看的懂。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(), 阅读全文
posted @ 2012-05-11 09:15 Liqizhou 阅读(1562) 评论(0) 推荐(2) 编辑
摘要: Random Forests (随机森林)随机森林的思想很简单,百度百科上介绍的随机森林算法比较好理解。在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 阅读全文
posted @ 2012-05-10 16:19 Liqizhou 阅读(14095) 评论(9) 推荐(1) 编辑
摘要: bagging,boosting,adboost,random forests都属于集成学习范畴.在boosting算法产生之前,还出现过两种比较重要的算法,即boostrapping方法和bagging方法。首先介绍一下这二个算法思路:从整体样本集合中,抽样n* < N个样本 针对抽样的集合训练分类器Ci ,抽样的方法有很多,例如放回抽样,不放回抽样等.对于预测样本, 众多分类器进行投票,最终的结果是分类器投票的优胜结果.以上就是bagging的主要思想.但是,上述这两种方法,都只是将分类器进行简单的组合,实际上,并没有发挥出分类器组合的威力来。到1989年,Yoav Freund与 阅读全文
posted @ 2012-05-10 13:53 Liqizhou 阅读(9088) 评论(0) 推荐(0) 编辑