2010 年 9月 26 日随笔档案 - finallyly

2010年9月26日

摘要：作者:finallyliuyu(转载请注明原作者和出处) （代码暂不发布源码下载版，以后会发布） KNN文本分类算法又称为(k nearest neighhor)。它是一种基于事例的学习方法，也称懒惰式学习方法。它的大概思路是：对于某个待分类的样本点，在训练集中找离它最近的k个样本点，并观察这k个样本点所属类别。看... 阅读全文

posted @ 2010-09-26 21:58 finallyly 阅读(15005) 评论(31) 推荐(8) 编辑

菜鸟进阶：C++实现Chi-square 特征词选择算法

摘要：作者：finallyliuyu(转载请标明原作者与出处)在文本分类问题中，离不开特征词选择模块。特征选择是特征降维的关键步骤。首先我们给出一般性的特征词选择模块的伪代码描述：（此图摘自 C.D. Maning Introduction to InformationRetrieval 原版p251页或者王斌译版p188页）此处仅赘述两点，其他还劳请读者自己去看书1。上面的伪代码给出的是算法是... 阅读全文

posted @ 2010-09-26 20:12 finallyly 阅读(8951) 评论(17) 推荐(4) 编辑

评估分类器

摘要：经常把分类问题（多分类问题）看成是二类问题。譬如一个文档集合中的所有文档可能属于 culture, military, education 的某一类。但是针对某一个具体类别来说，我们又可以这样考虑：即有多少篇文章属于该类？有多少篇文章不属于该类？如果将属于该类的文章定义为“正例”，不属于该类别的文章定义为负例，那么就有了查准率，查全率，F-score等性能评估标准。分... 阅读全文

posted @ 2010-09-26 15:41 finallyly 阅读(4346) 评论(5) 推荐(2) 编辑

近期工作安排

摘要：目前参与到了实验室的某一个项目中的子需求中。这个子需求可以归结为一个文本分类问题，但是对文本分类精度的要求非常高。所有考虑做如下工作： 1。程序中实现KNN分类器或者多项式朴素贝叶斯分类器。（调用weka的分类器不太方便，还是自己直接写。毕竟这是做工程，而不是做“实验”）目前已经完成了KNN分类器 2。考虑用bagging或者boosting的方法加强基本分类器的性能。或者通俗点说是用“... 阅读全文

posted @ 2010-09-26 14:40 finallyly 阅读(388) 评论(0) 推荐(1) 编辑

引用和const 引用的区别（转自chinaitlab）

摘要：原文地址：http://c.chinaitlab.com/basic/747981.html1）在实际的程序中，引用主要被用做函数的形式参数--通常将类对象传递给一个函数.引用必须初始化. 但是用对象的地址初始化引用是错误的，我们可以定义一个指针引用.int ival = 1092;int &re = ival; //okint &re2 = &ival; //错误int ... 阅读全文

posted @ 2010-09-26 13:34 finallyly 阅读(662) 评论(0) 推荐(1) 编辑

公告