摘要:
08-17 19:26 特征词选择算法对文本分类准确率的影响(二)特征词选择算法对文本分类准确率的影响(一)本节的题目是:是不是特征词的数目越高?VSM模型的特征维数越高,分类的准确率越高呢?很多人会想当然地认为应该是VSM模型的维数越高,也即所选的特征词数目越多,分类准确率越高。但答案是否定的。我们看下面的这张图就知道了。从上面的图片我们可以看到当文档集规模》2000时(red line,gre... 阅读全文
摘要:
特征词选择算法对文本分类准确率的影响(一)本文主要介绍下本实验的前提准备,已经筹划工作。1。文档向量空间模型(VSM)的建立:采用TF模式2。分类工具采用Chih-Jen Lin'sLibsvm3。语料库来源于搜狗开源语料库中的C00024(军事),C00013(健康)4。目前特征词选择算法为InfomationGain.5.词袋子模型格式(部分截图):(文章标号,出现次数)6。 IG表(部分截图... 阅读全文
摘要:
转载请注明出处,作者:finallyliuyu) 前言:经了解,园子里有很多已经工作,但是对信息检索和自然语言处理感兴趣的同仁,也有很多相关领域的从业者。目前本人正在从事文本特征选择方面的研究。所以打算写一系列有关此方向的科普型博客,和大家分享见解。也希望在算法的理解方面和业内人士多多交流。此系列的计划是介绍各种特征词选择方法,参考自Yiming Yang 1997年的论文"A comparati... 阅读全文
摘要:
作者:finallyliuyu在这个项目中,由于进行聚类的是论文摘要,而论文摘要中最重要的是名词,名词词组,已经形容词和形容词词组。所以特征词选择方法采用词性过滤加上其他策略。下面给出个图片,图片中是一个“评价论文推荐满意度”的程序截图。作为上面组合组件的一个应用来展示给大家。其中左边是原论文,右面是系统推荐的论文。原论文与推荐论文中相同的功能词(名词或形容词及其词组)用同... 阅读全文
摘要:
者:finallyliuyu 具体实现如下:1。首先在SnowballAnalyzer.cs里面建立类myEwordEntity,这个类可以看做是snowball.cs的接口:主程序调用Snowball.cs最终目的是为了获得关于词的这样一个“实体”//词汇的实体类public class myEwordEntity { public string txtWord;//词的... 阅读全文
摘要:
作者:finallyliuyu(一)中我们已经说明了任务需求。(二)中我们将驶入重点,如何用Lucene.Net,以及其他的一些开源工具实现上述功能。 里要首先感谢一个人智慧掩盖真相。此人写了一个系列对于Lucene.net内部机制的入门性质的文章,令我在短时间内掌握了Lucene.net的一些要领。 这里插一句我自己的对科研人员,与专业程序员的工作侧重点区别:专业程序员应该对某个编程产品熟谙其道... 阅读全文
摘要:
写个菜鸟的入门级读物:如何利用weka进行文本聚类(一)(老鸟勿进,因为你会失望的。。。)作者:finallyliuyu(转载请注明作者和出处)哦,(一)忘记附上了去掉字符串首尾空格的小函数了,现在补上。[代码]在(一)中,我们已经建立了稳定词袋子模型,这个词袋子模型可是个宝贝家伙,我们一定要小心维护。为什么呢?因为 特征词选择模块,VSM(文档向量模型)的建立模块,我们都要用到它。另外我们也说了... 阅读全文
摘要:
近做项目用到c++,才发现c++中的数据类型不是一般的BT。尤其是我和婷还是分开操作的。我写底层,用的是WIN32控制台;而婷写MFC。由于没有经验,所以没有写中间的转换程序。当集成时,类型转换特别麻烦。以下都是我收集的类型转换的方法和一些经验,供大家参考。欢迎补充~~1. char* to stringstring s(char *); 注:在不是初始化的地方最好用assign().!!!!!!... 阅读全文
摘要:
要使用Boost.Regex, 你需要包含头文件"boost/regex.hpp". Regex是本书中两个需要独立编译的库之一(另一个是Boost.Signals)。你会很高兴获知如果你已经构建了Boost— —那只需在命令提示符下打一行命令——就可以自动链接了(对于Windows下的编译器),所以你不需要为指出那些库文件要用而费心。你要做的第一件... 阅读全文