上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 41 下一页
  2010年10月4日
摘要: (注:博文转载请注明作者和出处 作者:finallyliuyu 出处 博客园)将实验数据公布出来,目的在于可以方便有相同爱好者的网友,直接下载中间数据快速重现实验。资源空间提供方:download.csdn.net统计词典以及关联表数据结构每个数据包中共有四个文件:keywords.dat,testVSM.dat,trainingVSM.dat,evaluation.txt (.dat文件需要用u... 阅读全文
posted @ 2010-10-04 20:46 finallyly 阅读(1121) 评论(17) 推荐(0) 编辑
摘要: 声明:按类别特征词选择算法声明 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--vector<pair<string,double>>LocalDFFeatureSelectionForPerclass(DICTIONARY&a... 阅读全文
posted @ 2010-10-04 16:28 finallyly 阅读(3486) 评论(0) 推荐(0) 编辑
摘要: 博文转载请注明作者和出处(作者:finallyliuyu :出处博客园)附:《卡方特征词选择算法》  《DF特征词选择算法》一.数学背景将数学知识、数学理论以及数学思想迁移到实际工程问题中,经常会促进工程问题的圆满解决。可是如何将数学知识引入工程问题中呢?首先需要有“数学思维”例如理解数学公式所刻画的内涵;其次需要有“建模”能力:从不同的视角来看待同... 阅读全文
posted @ 2010-10-04 09:53 finallyly 阅读(4619) 评论(4) 推荐(3) 编辑
  2010年9月29日
摘要: (注:如有转载请标明作者:finallyliuyu, 和出处:博客园)《文本分类 step by step(一)》  在《文本分类step by step(一)》中,我们从处理语料库开始讲起,一直讲到利用分类器进行分类。文章末尾还随机抽取了一篇文章,给出了这篇文章的标题、正文、实际类别,分类器所分类别等信息。在此篇博客中我们将介绍分类器的评估,以及代码的一些介绍,最后给出程序和实验语料库的下载地址... 阅读全文
posted @ 2010-09-29 19:30 finallyly 阅读(4713) 评论(5) 推荐(3) 编辑
摘要: 运行情况截图:结果的部分截图:(数据结构含义:比如“和睦”这个词”第一行term,第二行term出现在多少篇文章中,第三行:在id为多少的文章中出现过几次) · 特征词选择 代码中实现了两种特征词选择算法(DF法和chi-square法)。这里仅给出对chi-square特征词选择算法的调用。使用chi-square特征词选择法,首先需要构造出con... 阅读全文
posted @ 2010-09-29 14:55 finallyly 阅读(8386) 评论(22) 推荐(1) 编辑
  2010年9月27日
摘要:     群号:9826518 群简介:(来自群主“寄居”) 普及一下吧: 为了让新成员快速融入本群,为了让大家彼此之间多多交流,因此在这介绍一下本群以及各位成员。 本群讨论的话题主要为互联网方面的一些技术、创意,比如:NLP,架构,IR,Web Mining,推荐,ML,AI等等。只要你想到的,群里总有人在从事的。 在人员构成方面,这个群是我还在... 阅读全文
posted @ 2010-09-27 13:36 finallyly 阅读(1718) 评论(6) 推荐(3) 编辑
  2010年9月26日
摘要: 作者:finallyliuyu(转载请注明原作者和出处) (代码暂不发布源码下载版,以后会发布)     KNN文本分类算法又称为(k nearest neighhor)。它是一种基于事例的学习方法,也称懒惰式学习方法。     它的大概思路是:对于某个待分类的样本点,在训练集中找离它最近的k个样本点,并观察这k个样本点所属类别。看... 阅读全文
posted @ 2010-09-26 21:58 finallyly 阅读(14975) 评论(31) 推荐(8) 编辑
摘要: 作者:finallyliuyu(转载请标明原作者与出处)在文本分类问题中,离不开特征词选择模块。特征选择是特征降维的关键步骤。首先我们给出一般性的特征词选择模块的伪代码描述: (此图摘自 C.D. Maning Introduction to InformationRetrieval 原版p251页 或者王斌译版p188页)此处仅赘述两点,其他还劳请读者自己去看书1。 上面的伪代码给出的是算法是... 阅读全文
posted @ 2010-09-26 20:12 finallyly 阅读(8932) 评论(17) 推荐(4) 编辑
摘要: 经常把分类问题(多分类问题)看成是二类问题。譬如 一个文档集合中的所有文档可能属于 culture, military, education 的某一类。但是针对某一个具体类别来说,我们又可以这样考虑:即有多少篇文章属于该类?有多少篇文章不属于该类? 如果将属于该类的文章定义为“正例”,不属于该类别的文章定义为负例,那么就有了 查准率,查全率,F-score等性能评估标准。分... 阅读全文
posted @ 2010-09-26 15:41 finallyly 阅读(4340) 评论(5) 推荐(2) 编辑
摘要: 目前参与到了实验室的某一个项目中的子需求中。这个子需求可以归结为一个文本分类问题,但是对文本分类精度的要求非常高。所有考虑做如下工作: 1。 程序中实现KNN分类器或者多项式朴素贝叶斯分类器。(调用weka的分类器不太方便,还是自己直接写。毕竟这是做工程,而不是做“实验”) 目前已经完成了KNN分类器 2。考虑用bagging或者boosting的方法加强基本分类器的性能。或者通俗点说是用“... 阅读全文
posted @ 2010-09-26 14:40 finallyly 阅读(383) 评论(0) 推荐(1) 编辑
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 41 下一页