2010年9月3日
摘要: 注意: 本代码中没有实现“C++工程调用weka”的功能,如果您要找这类的资料,那么您来错地方了。重申一下这份代码的目的:方便广大自然语言处理爱好者,研究者,不必过分究竟于编程的技术细节,而是能在一开始就将注意力集中在文本分类/聚类这个主题上。 拿我自己做个比方吧,我一直怀疑课本上所讲的各种特征词选择方法是否有效,比如课本上说DF法与IG法,CHI squire法效果差不多... 阅读全文
posted @ 2010-09-03 21:29 finallyly 阅读(3139) 评论(10) 推荐(2) 编辑
摘要: 作者:finallyliuyu 转载使用等请注明出处上一讲:Kmeans文本聚类之VSM模型 中,给出了如何建立文档向量模型,以及写weka软件所要求的数据格式arff的代码。这里我们将介绍从weka中获取聚类中心,完成聚类的代码。至于如何用weka聚类,该软件使用说明等之类问题,本系列博客不做介绍,请大家自行google之。我们找到我们已经写好的arff文件: 点击start,出现结果后,单击鼠... 阅读全文
posted @ 2010-09-03 20:27 finallyly 阅读(9930) 评论(5) 推荐(3) 编辑
摘要: 语料数据库实验结果以及中间数据文本预处理开源框架源代码头文件: 阅读全文
posted @ 2010-09-03 19:58 finallyly 阅读(12252) 评论(18) 推荐(2) 编辑
摘要: 作者:finallyliuyu 转载使用等请注明出处在上一篇博文《Kmeans聚类之特征词选择DF》中我们已经给出了特征词选择的代码,这里我们将给出建立文档向量模型的代码,以及将文档向量模型写成Weka数据格式的代码。关于Weka数据格式等相关内容,请见:教程。首先我们给出写Arff头文件的代码下面重点介绍采用TF-IDF权重建立文档向量模型:在给出代码之前先简要介绍下什么是TF,DF对于一个特定... 阅读全文
posted @ 2010-09-03 19:18 finallyly 阅读(9635) 评论(24) 推荐(3) 编辑
摘要: 在Visual C++中用ADO进行数据库编程由 wnchg 整理  1. 生成应用程序框架并初始化OLE/COM库环境   创建一个标准的MFC AppWizard(exe)应用程序,然后在使用ADO数据库的InitInstance函数中初始化OLE/COM库(因为ADO库是一个COM DLL库)。本例为:程序最后要调用 ::CoUninitialize();//释放程序占用的COM 资源。另外... 阅读全文
posted @ 2010-09-03 11:44 finallyly 阅读(2277) 评论(0) 推荐(0) 编辑