2010年9月26日
摘要: 作者:finallyliuyu(转载请注明原作者和出处) (代码暂不发布源码下载版,以后会发布)     KNN文本分类算法又称为(k nearest neighhor)。它是一种基于事例的学习方法,也称懒惰式学习方法。     它的大概思路是:对于某个待分类的样本点,在训练集中找离它最近的k个样本点,并观察这k个样本点所属类别。看... 阅读全文
posted @ 2010-09-26 21:58 finallyly 阅读(15005) 评论(31) 推荐(8) 编辑
摘要: 作者:finallyliuyu(转载请标明原作者与出处)在文本分类问题中,离不开特征词选择模块。特征选择是特征降维的关键步骤。首先我们给出一般性的特征词选择模块的伪代码描述: (此图摘自 C.D. Maning Introduction to InformationRetrieval 原版p251页 或者王斌译版p188页)此处仅赘述两点,其他还劳请读者自己去看书1。 上面的伪代码给出的是算法是... 阅读全文
posted @ 2010-09-26 20:12 finallyly 阅读(8951) 评论(17) 推荐(4) 编辑
摘要: 经常把分类问题(多分类问题)看成是二类问题。譬如 一个文档集合中的所有文档可能属于 culture, military, education 的某一类。但是针对某一个具体类别来说,我们又可以这样考虑:即有多少篇文章属于该类?有多少篇文章不属于该类? 如果将属于该类的文章定义为“正例”,不属于该类别的文章定义为负例,那么就有了 查准率,查全率,F-score等性能评估标准。分... 阅读全文
posted @ 2010-09-26 15:41 finallyly 阅读(4346) 评论(5) 推荐(2) 编辑
摘要: 目前参与到了实验室的某一个项目中的子需求中。这个子需求可以归结为一个文本分类问题,但是对文本分类精度的要求非常高。所有考虑做如下工作: 1。 程序中实现KNN分类器或者多项式朴素贝叶斯分类器。(调用weka的分类器不太方便,还是自己直接写。毕竟这是做工程,而不是做“实验”) 目前已经完成了KNN分类器 2。考虑用bagging或者boosting的方法加强基本分类器的性能。或者通俗点说是用“... 阅读全文
posted @ 2010-09-26 14:40 finallyly 阅读(388) 评论(0) 推荐(1) 编辑
摘要: 原文地址:http://c.chinaitlab.com/basic/747981.html1)在实际的程序中,引用主要被用做函数的形式参数--通常将类对象传递给一个函数.引用必须初始化. 但是用对象的地址初始化引用是错误的,我们可以定义一个指针引用.int ival = 1092;int &re = ival; //okint &re2 = &ival; //错误int ... 阅读全文
posted @ 2010-09-26 13:34 finallyly 阅读(662) 评论(0) 推荐(1) 编辑