2014年2月12日

weka数据挖掘拾遗(二)---- 特征选择(IG、chi-square)

摘要: 一、说明 IG是information gain 的缩写,中文名称是信息增益,是选择特征的一个很有效的方法(特别是在使用svm分类时)。这里不做详细介绍,有兴趣的可以googling一下。 chi-square 是一个常用特征筛选方法,在种子词扩展那篇文章中,有详细说明,这里不再赘述。二、weka中的使用方法 1、特征筛选代码 1 package com.lvxinjian.alg.models.feature; 2 3 import java.nio.charset.Charset; 4 import java.util.ArrayList; 5 6 import weka.att... 阅读全文

posted @ 2014-02-12 13:20 BruceLv 阅读(3346) 评论(1) 推荐(0) 编辑

weka数据挖掘拾遗(一)---- 生成Arff格式文件

摘要: 一、什么是arff格式文件 1、arff是Attribute-Relation File Format缩写,从英文字面也能大概看出什么意思。它是weka数据挖掘开源程序使用的一种文件模式。由于weka是个很出色的数据挖掘开源项目,所以使用的比较广,这也无形中推广了它的数据存储格式。 2、下面是weka自带的一个arff文件例子(weather.arff) 1 @relation weather 2 3 @attribute outlook {sunny, overcast, rainy} 4 @attribute temperature real 5 @attribute humidit... 阅读全文

posted @ 2014-02-12 10:49 BruceLv 阅读(9140) 评论(4) 推荐(1) 编辑

导航