摘要: 先看看博客上大家是怎么认为的吧:如果用少量训练数据训练出来的模型(Ma)比使用全部数据但是经过特征裁剪训练出来的模型(Mb)性能还要高,那么能说明什么问题?这里面两个注意的地方,其一是少量数据产生的特征甚至还要比全部数据裁剪后的特征数量少很多,其二是如果用少量数据中的特征在全部数据上训练得到模型Mc,我猜测性能会比Mb更低。如果猜想成立,那么又说明了什么呢。在自然语言处理中,我感觉特征中的term比template要重要很多,而事实上一个具体的特征又会由很多term合并而成。那么特征分组是否可以考虑以term为单位,尤其是衡量特征的有效性。 特征选择(feature selection)是一种 阅读全文
posted @ 2012-03-12 20:55 hailong 阅读(9226) 评论(0) 推荐(0) 编辑
摘要: from http://pinkyjie.com/2010/08/31/covariance/统计学的基本概念学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。均值:标准差:方差:很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8. 阅读全文
posted @ 2012-03-12 20:06 hailong 阅读(607) 评论(0) 推荐(0) 编辑
摘要: 从SVM核函数特点看特征选择:SVM的核函数本质上是通过拆解当前特征(变成更多的特征),使一个非线性的问题转换为线性问题(SVM本身只能解决线性问题,现在有了核函数它就能够解决非线性问题了)。所以,无论是不是线性函数,SVM都没有对不同的feature进行交叉计算:比如一个vector (a, b, c), SVM只会扩展出 (a1, a2, a3, b1, b2, c1, c2),但绝不会扩展出类似( a/b, b/c, logb(a^2) )。所以在进行SVM特征选择时,必须给出理性的,直觉上有贡献的feature,而不是把所有原始信息丢给SVM,寄希望于其后期的核函数能搞定这一点。换句话 阅读全文
posted @ 2012-03-12 17:11 hailong 阅读(459) 评论(0) 推荐(0) 编辑