decisionTrees_ID3

import math,operator

def calShannonEnt(dataSet):
   numEntries = len(dataSet)
   labelCounts = {}
   for featVec in dataSet:
       currentLabel = featVec[-1]
       if currentLabel not in labelCounts.keys():
           labelCounts[currentLabel] = 0
       labelCounts[currentLabel] +=1
   shannonEnt = 0.0
   for key in labelCounts:
       prob = float(labelCounts[key])/numEntries
       shannonEnt -= prob*math.log(prob,2)
   return shannonEnt

def createDataSet():
   dataSet = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]
   labels = ['no surfacing','flippers']
   return dataSet,labels

def splitDataSet(dataSet,axis,value):
   retDataSet = []
   for featVec in dataSet:
       if featVec[axis] == value:
           reducedFeatVec = featVec[:axis]
           reducedFeatVec.extend(featVec[axis+1:])
           retDataSet.append(reducedFeatVec)
   return retDataSet

def chooseBestFeatureToSplit(dataSet):
   numFeatures = len(dataSet[0])-1
   baseEntropy = calShannonEnt(dataSet)
   bestInfoGain = 0.0; bestFeature = -1
   featList = []
   for i in range(numFeatures):
       featList = [example[i] for example in dataSet]
       uniqueVals = set(featList)
       newEntropy = 0.0
       for value in uniqueVals:
           subDataSet = splitDataSet(dataSet,i,value)
           pro = len(subDataSet)/len(dataSet)
           newEntropy += pro*calShannonEnt(subDataSet)
       infoGain = baseEntropy - newEntropy
       if(infoGain>bestInfoGain):
           bestInfoGain = infoGain
           bestFeature = i
   return bestFeature

def majorityCnt(classList):
   classCout = {}
   for vote in classList:
       if vote not in classCout.keys():classCout[vote] =0
       classCout[vote]+=1
   sortedClassCout = sorted(classCout.iteritems(),key=operator.itemgetter(1),reverse=True)
   return sortedClassCout[0][0]

def createTree(dataSet,labels):
   classList = [example[-1] for example in dataSet]
   if classList.count(classList[0]) == len(classList):
       return classList[0]#all the class label are the same
   if len(dataSet[0]) == 1:#calculate the feature number
       return majorityCnt(classList)#no more class features to split
   bestFeat = chooseBestFeatureToSplit(dataSet)
   bestFeatLabel = labels[bestFeat]
   myTree = {bestFeatLabel:{}}
   del(labels[bestFeat])
   featValues = [example[bestFeat] for example in dataSet]
   uniqueVals = set(featValues)
   for value in uniqueVals:
       subLabel = labels[:]
       myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabel)
   return myTree

def classfy(inputTree,featLabels,testVec):
   firstStr = inputTree.keys()[0]
   secondDict = inputTree[firstStr]
   featIndex = featLabels.index(firstStr)
   for key in secondDict.keys():
       if testVec[featIndex] == key:
           if type(secondDict[key]).__name__ =='dict':
               classLabel = classfy(secondDict[key],featLabels,testVec)
           else: classLabel = secondDict[key]
   return classLabel

def storeTree(inputTree,filename):
   import pickle
   fw = open(filename,'w')
   pickle.dump(inputTree,fw)
   fw.close()

def grabTree(filename):
   import pickle
   fr = open(filename)
   return pickle.load(fr)

#fr=open('.txt')
#lines = fr.readlines()
#dataset = [line.strip().split('\t') for line in lines]
#labels = [line[-1] for line in dataSet]
#lenseLabels = ['age','prescript','astigmatic','tearRate']

posted on 2021-08-31 15:37 Yan12345678 阅读(44) 评论(0) 收藏举报

刷新页面返回顶部

decisionTrees_ID3

导航

公告