摘要: SVM简介支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,广泛的应用于统计分类以及回归分析中,并可推广于预测和综合评价等领域。SVM属于一般化线性分类器,这族分类器的特点是能够同时最小化经验误差与最大化几何边缘区。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der 阅读全文
posted @ 2012-01-04 16:26 哈度普 阅读(749) 评论(0) 推荐(0) 编辑
摘要: 问题描述寻找一系列合适的参数 W,使得其对应的多项式与样值点最接近。对于如何刻画“最接近”,可以定义目标函数最小化:如下图:由下图可见,当多项式的阶数(M)增加时,红色多项式曲线与样本的误差越小。当M为9时,多项式曲线通过每一个样本点。Over Fitting 问题但是多项式阶数为9时,其推广能力并不好。在测试集上,其误差反而增加,这就是过拟合(over fitting)问题。为解决Over fitting问题,将目标函数增加一项,如下图。这一过程称为 regularization。通过正则化,一部分解决了过拟合问题。下图仍然是 M=9,作用在相同数据集上的情况。可见引入的正则项控制了 Ove 阅读全文
posted @ 2012-01-04 14:52 哈度普 阅读(1322) 评论(0) 推荐(0) 编辑
摘要: 拉格朗日乘数详细的解释见wiki,http://zh.wikipedia.org/wiki/%E6%8B%89%E6%A0%BC%E6%9C%97%E6%97%A5%E4%B9%98%E6%95%B0例子[编辑]很简单的例子求此方程的最大值:f(x,y) =x2y同时未知数满足x2+y2= 1因为只有一个未知数的限制条件,我们只需要用一个乘数λ.g(x,y) =x2+y2− 1Φ(x,y,λ) =f(x,y) + λg(x,y) =x2y+ λ(x2+y2− 1)将所有Φ方程的偏微分设为零,得到一个方程组,最大值是以下方程组的解中的一个:2xy+ 2λx= 0x2+ 2λy= 0x2+y2− 阅读全文
posted @ 2012-01-04 13:26 哈度普 阅读(885) 评论(0) 推荐(0) 编辑
摘要: 最大熵模型的意义和形式第一次系统提出最大熵的原理的一般认为是Jaynes,后来有人提出了相应的算法来估计对应的统计模型的参数。由于当时计算条件的限制,最大熵模型在人工智能和自然语言处理领域都没有得到广泛应用。上世纪90年代,IBM的研究员应用重新深入的研究了这个问题,系统地描述了条件最大熵的框架和实现算法,并在自然语言处理任务上取得了非常好的效果,引起了人们的重视。很快条件最大熵模型技术得到了广泛... 阅读全文
posted @ 2012-01-04 13:05 哈度普 阅读(2300) 评论(0) 推荐(0) 编辑
摘要: 物理学的熵描述事物无序性的参数,熵越大则无序性越强。从宏观方面讲(根据热力学定律),一个体系的熵等于其可逆过程吸收或耗散的热量除以它的绝对温度从微观讲,熵是大量微观粒子的位置和速度的分布概率的函数。自然界的一个基本规律就是熵递增原理,即,一个孤立系统的熵,自发性地趋于极大,随着熵的增加,有序状态逐步变为混沌状态,不可能自发地产生新的有序结构,这意味着自然界越变越无序。信息论的熵先认识一下信息论的鼻祖,香农。信息论的开创者香农认为,信息(知识)是人们对事物了解的不确定性的消除或减少。他把不确定的程度称为信息熵。表示为:Matlab Demo:p=[0:0.01:1];h=-1*(p.*log2( 阅读全文
posted @ 2012-01-04 12:50 哈度普 阅读(1221) 评论(0) 推荐(0) 编辑