PRaCtice[1]

ID-3学习 代码实现

该项目采用了业界领先的 TDD(TreeNewBee-Driven Development,吹牛逼导向开发模式) 方式。-Rrrrraulista

1. 样例数据集

样例数据集来自周老师《机器学习》上的“西瓜数据集2.0”img

数据结构定义如下:

结构体类型定义//update

typedef struct SampleNode{
	int SeqNum; 	        //样例编号
	bool Type;			    //样例类别(true 好瓜;false 非好瓜) 

	int Color;				//色泽 	(1 青绿;	2 乌黑;	  3 浅白) 
	int Root;				//根部 	(1 蜷缩;	2 稍微蜷缩;  3 硬挺) 
	int Sounds;				//敲击声音 (1 沉闷;  2 浊响;      3 清脆) 
	int Style;				//纹理 	(1 清晰;	2 稍微模糊;  3 模糊) 
	int Struct;				//脐部特性 (1 凹陷;  2 稍凹;	 3 平坦) 
	int Touch;				//触感 	(1 硬滑;	2 软粘;) 
};
SampleNode sample[17]={ 
	{ 1 , true , 1 , 1 , 2 , 1 , 1 , 1 },
	{ 2 , true , 2 , 1 , 1 , 1 , 1 , 1 },
	{ 3 , true , 2 , 1 , 2 , 1 , 1 , 1 },
	{ 4 , true , 1 , 1 , 1 , 1 , 1 , 1 },
	{ 5 , true , 3 , 1 , 2 , 1 , 1 , 1 },
	{ 6 , true , 1 , 2 , 2 , 1 , 2 , 2 },
	{ 7 , true , 2 , 2 , 2 , 2 , 2 , 2 },
	{ 8 , true , 2 , 2 , 2 , 1 , 2 , 1 },
	{ 9  , false , 2 , 2 , 1 , 2 , 2 , 1},
	{ 10 , false , 1 , 3 , 3 , 1 , 3 , 2},
	{ 11 , false , 3 , 3 , 3 , 3 , 3 , 1},
	{ 12 , false , 3 , 1 , 2 , 3 , 3 , 2},
	{ 13 , false , 1 , 2 , 2 , 2 , 1 , 1},
	{ 14 , false , 3 , 2 , 1 , 2 , 1 , 1},
	{ 15 , false , 2 , 2 , 2 , 1 , 2 , 2},
	{ 16 , false , 3 , 1 , 2 , 3 , 3 , 1},
	{ 17 , false , 1 , 1 , 1 , 2 , 2 , 1},
};

二维数组实现方法

int data[17][7]{//整数类型西瓜数据集二维数组(类别,色泽,根部,声音,纹路,脐部,触感) 
	{1 , 1 , 1 , 2 , 1 , 1 , 1},
	{1 , 2 , 1 , 1 , 1 , 1 , 1},
	{1 , 2 , 1 , 2 , 1 , 1 , 1},
	{1 , 1 , 1 , 1 , 1 , 1 , 1},
	{1 , 3 , 1 , 2 , 1 , 1 , 1},
	{1 , 1 , 2 , 2 , 1 , 2 , 2},
	{1 , 2 , 2 , 2 , 2 , 2 , 2},
	{1 , 2 , 2 , 2 , 1 , 2 , 1},
	{0 , 2 , 2 , 1 , 2 , 2 , 1},
	{0 , 1 , 3 , 3 , 1 , 3 , 2},
	{0 , 3 , 3 , 3 , 3 , 3 , 1},
	{0 , 3 , 1 , 2 , 3 , 3 , 2},
	{0 , 1 , 2 , 2 , 2 , 1 , 1},
	{0 , 3 , 2 , 1 , 2 , 1 , 1},
	{0 , 2 , 2 , 2 , 1 , 2 , 2},
	{0 , 3 , 1 , 2 , 3 , 3 , 1},
	{0 , 1 , 1 , 1 , 2 , 2 , 1},
};

2.信息熵的计算

在二维数组构成的数据集上,先写出对于样本类别的信息熵地计算的基础上,逐步修改,使其具备复用性。

double Entropy(int data[17][7]);	//Declaration of the function
double Entropy(int data[17][7]){	//to calculate the entropy of dataset
	int trueNum=0;	
	for(int i=0;i<17;i++){	//count the number of TRUE numbers, which means 好瓜
		if(data[i][0]==1){
			trueNum++;
		}else{
			continue;
		}
	}
	int  falseNum=17-trueNum;	// Total - true.num = false.num
	double p1=trueNum/17.0;
	double p2=falseNum/17.0;
	if(p1!=0){	//define that 0*log_2(0) = 0
		p1=-1*(p1*(log(p1)/log(2)));
	}
	if(p2!=0){
		p2=-1*(p2*(log(p2)/log(2)));
	}
	double Ent=p1+p2;
	return Ent;
} 
//main():double ent=Entropy(data);

可以看到,该段代码成功计算了总体数据集的信息熵约为 0.998(与书上数值相同),但是该段代码默认了数据集长度为17,无法应用于子集合计算,同时传递的参数固定(二维数组),如果不解决该问题,则声明函数无意义,于是下面着手修改,使该函数更加具备复用性。

  • 首先为了方便计算数组长度,人为加入数组下界,最后一行所有元素赋值为“-1”
	{-1 ,-1 ,-1 ,-1 ,-1 ,-1 ,-1},
  • 这样做能简化程序。

而在此基础上使用如下代码

	int SetLength=0;
	for(int i=0;num[i][0]!=-1;i++){
		SetLength++;
	}

可以实现在函数内计算二维数组的行数,提高了数组的复用性能。

//通过这个函数可以计算出数据集种某个属性具有多少种可能取值
int TypeNum(int set[][7],int att){
	int SetLength=0;			//计算出二维数组行数 
	for(int i=0;set[i][0]!=-1;i++){
		SetLength++;
	}
	printf("\ntesta=%d",SetLength);	//测试用
	for(int i=0;i<SetLength;i++){
		for(int j=i+1;j<SetLength;j++){
			if(set[i][att]==set[j][att]){
				SetLength--;
				break;
			}
		}
	} 
	printf("\ntestb=%d",SetLength);	//测试用testb
	return SetLength;
}
//修改后的信息熵计算函数如下所示
double Entropy(int num[][7]){//计算数据关于的类别的信息熵 
	int trueNum=0;
	int SetLength=0;			//计算出了二维数组的行数 
	for(int i=0;num[i][0]!=-1;i++){
		SetLength++;
	}
	for(int i=0;i<SetLength;i++){
		if(num[i][0]==1){
			trueNum++;
		}else{
			continue;
		}
	}
	int  falseNum=SetLength-trueNum;
	double p1=(double)trueNum/SetLength;
	double p2=(double)falseNum/SetLength;
	if(p1!=0){
		p1=-(p1*(log(p1)/log(2)));
	}
	if(p2!=0){
		p2=-(p2*(log(p2)/log(2)));
	}
	double Ent=p1+p2;
	return Ent;
} 
posted @ 2020-02-10 19:57  ExplodedVegetable  阅读(178)  评论(0编辑  收藏  举报