weka数据挖掘拾遗(二)---- 特征选择(IG、chi-square)
摘要:
一、说明 IG是information gain 的缩写,中文名称是信息增益,是选择特征的一个很有效的方法(特别是在使用svm分类时)。这里不做详细介绍,有兴趣的可以googling一下。 chi-square 是一个常用特征筛选方法,在种子词扩展那篇文章中,有详细说明,这里不再赘述。二、weka中的使用方法 1、特征筛选代码 1 package com.lvxinjian.alg.models.feature; 2 3 import java.nio.charset.Charset; 4 import java.util.ArrayList; 5 6 import weka.att... 阅读全文
posted @ 2014-02-12 13:20 BruceLv 阅读(3346) 评论(1) 推荐(0) 编辑