ChiMerge算法 (java)

韩家炜数据挖掘概念与技术第三版习题3.12

取鸢尾花数据集iris.data作为待离散化的数据集合，使用ChiMerge算法，对四个数值属性进行离散化，对四个属性进行区间合并，最终合并区间个数剩下为6个即停：即max_interval=6。

一、样本数据

iris.data数据形式为：前面4列是属性，最后一列是数据类名，

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
6.6,2.9,4.6,1.3,Iris-versicolor
5.2,2.7,3.9,1.4,Iris-versicolor
6.0,3.0,4.8,1.8,Iris-virginica
6.9,3.1,5.4,2.1,Iris-virginica
........

此数据集一共3个类名：String[] classifies = {"Iris-setosa","Iris-versicolor","Iris-virginica"};

二、算法理论：

算法理论步骤参考： http://blog.csdn.net/zhaoyl03/article/details/8689440

第一步：初始化

初始化时，一个数据认为是一个区间，每个属性对该属性下的各个区间进行升序排序

第二步：合并区间：（直到剩下区间数目为6）

(1) 计算每一对相邻区间的卡方值

　　卡方公式是：

　　其中observed是expected是一个二行n列矩阵，二行是两个区间，n列是指数据一共有n个类。

这里iris.data数据中一共有三个类，所以是2行3列矩阵：e.g

observedmatrix:(下面表只有红色数字部分才为observedmatrix[2][3]的值。)

区间：	类别Iris-setosa	类别Iris-versicolor	类别Iris-virginica	i行计算1的总个数
{3.0}	1	0	0	1
{3.1,3.2,3.3}	0	1	2	3
j列计算1的总个数	1	1	2	4 (矩阵里1的总个数)

expectedmatrix[i][j]是由上面observedmatrix所得，expectedmatrix[i][j]= （obser矩阵的i行1的总个数* j列1的总个数）/（observ矩阵里1的总个数）

expectedmatrix:

区间：	类别Iris-setosa	类别Iris-versicolor	类别Iris-virginica
{3.0}	1*1/4=0.25	1/4=0.25	2*1/4=0.5
{3.2,3.3}	1*3/4=0.75	1/4=0.25	2*3/4 = 1.5

因为是2行3列矩阵，所以一共卡方迭加了2*3=6次; (observedmatrix[i][j]-expectedmatrix[i][j])/ expectedmatrix[i][j]

所以 chisquare = (1-0.25)^2 /0.25 + (0-0.25)^2/0.25 +(0-0.5)^2/0.5 + (0-0.75)^2/0.75 + (1-0.25)^2/0.25 + (2-1.5)^2/1.5

(2) 将上面卡方值最小的一对区间合并

第三步：输出结果：6个区间的最大最小值

三、算法理论数据结构化

将上面算法理论数据结构化：

iris.data 中

1.属性：每个属性都有多个区间，所以定义属性是一个list，list的元素是什么类型呢？是一个区间类型（所以写一个区间类：包括区间最大最小值，区间包含的元素）。

2.区间：每个区间会包含很多元素，所以也需要一个list来存，list元素什么类型好？再写一个数据Data类，包括(数据，数据对应的类别（在卡方运算里会用到类别）)

所有数据都具备了结构了，整体结构这是最重要的。

List<Interval>[] attributelists = new ArrayList[attributenum]; 

for(int i=0;i<attributenum;i++) {
            attributelists[i] = new ArrayList<Interval>();
        }


class Interval {
    //每个区间都是有最小值最大值，以及该区间所包含的所有数据
    public double maxvalue = 0.0;
    public double minvalue = 0.0;
    public List<Data> intervallist = new ArrayList<Data>();  //区间里的list每个元素都是Data类型
}

class Data {       
    //每个数据都包含它的值和类别
    public double  value = 0.0;
    public String  classify = "";
}

四、Java 实现

public class ChiMergeTest {
    public static int classificationnum = 3;  //类个数
    public static int attributenum = 4;
    public static List<Interval>[] attributelists = new ArrayList[attributenum]; //右边不能Arraylist<interval>!!
    public static String[] classifies = {"Iris-setosa","Iris-versicolor","Iris-virginica"};
        
    public static void main(String[] args) throws Exception {
        String inputpath = "iris.data";
        readFile(inputpath);  //将输入数据的 结构化
        chiMerge();
        printresult();
    }

对应上面算法步骤：