决策树

#决策树
______
##决策树的学习
###1.reference blog:
https://blog.csdn.net/jiaoyangwm/article/details/79525237#t0 （机器学习实战简略版，更容易懂，附在下面）
###2.reference book:《机器学习实战》
###3.Sklearn实现决策树并用Graphviz可视化决策树（一个例子）：
https://blog.csdn.net/zhyh1435589631/article/details/53869803/
###4.使用 sklearn 实现决策树（一个例子）：
https://blog.csdn.net/zhyh1435589631/article/details/53869803/
###5.Python机器学习算法库——决策树（scikit-learn学习 - 决策树）（从细方面讲代码）：
https://blog.csdn.net/Yeoman92/article/details/73436632

1.reference blog 之代码解析
（编译在：google云盘~决策树.ipynb ：
https://colab.research.google.com/drive/1fGx90cJP7PuNbJN8xmqiiRR4XwrlK5sw#scrollTo=01mig8gorfUl&uniqifier=1）
```
from math import log

"""
函数说明：创建测试数据集
Parameters：无
Returns：
dataSet：数据集
labels：分类属性
Modify：
2018-03-12

"""
def creatDataSet():
# 数据集
dataSet=[[0, 0, 0, 0, 'no'],
[0, 0, 0, 1, 'no'],
[0, 1, 0, 1, 'yes'],
[0, 1, 1, 0, 'yes'],
[0, 0, 0, 0, 'no'],
[1, 0, 0, 0, 'no'],
[1, 0, 0, 1, 'no'],
[1, 1, 1, 1, 'yes'],
[1, 0, 1, 2, 'yes'],
[1, 0, 1, 2, 'yes'],
[2, 0, 1, 2, 'yes'],
[2, 0, 1, 1, 'yes'],
[2, 1, 0, 1, 'yes'],
[2, 1, 0, 2, 'yes'],
[2, 0, 0, 0, 'no']]
#分类属性
labels=['年龄','有工作','有自己的房子','信贷情况']
#返回数据集和分类属性
return dataSet,labels

"""
函数说明：计算给定数据集的经验熵（香农熵）
Parameters：
dataSet：数据集
Returns：
shannonEnt：经验熵
Modify：
2018-03-12

"""
def calcShannonEnt(dataSet):
#返回数据集行数
numEntries=len(dataSet)
#保存每个标签（label）出现次数的字典
labelCounts={}
#对每组特征向量进行统计
for featVec in dataSet:
currentLabel=featVec[-1] #提取标签信息
if currentLabel not in labelCounts.keys(): #如果标签没有放入统计次数的字典，添加进去
labelCounts[currentLabel]=0
labelCounts[currentLabel]+=1 #label计数

shannonEnt=0.0 #经验熵
#计算经验熵
for key in labelCounts:
prob=float(labelCounts[key])/numEntries #选择该标签的概率
shannonEnt-=prob*log(prob,2) #利用公式计算
return shannonEnt #返回经验熵

"""
函数说明：计算给定数据集的经验熵（香农熵）
Parameters：
dataSet：数据集
Returns：
shannonEnt：信息增益最大特征的索引值
Modify：
2018-03-12

"""

def chooseBestFeatureToSplit(dataSet):
#特征数量
numFeatures = len(dataSet[0]) - 1
print("numFeatures=",numFeatures) #4
#计数数据集的香农熵
baseEntropy = calcShannonEnt(dataSet) #0.97..
print("baseEntropy=",baseEntropy)
#信息增益
bestInfoGain = 0.0
#最优特征的索引值
bestFeature = -1
#遍历所有特征
for i in range(numFeatures): #每一列，共4列
# 获取dataSet的第i个所有特征
featList = [example[i] for example in dataSet] #datas of every list
#print("featList=",featList)
#创建set集合{}，元素不可重复
uniqueVals = set(featList)
#print("uniqueVals=",uniqueVals) # 看每一列（每个特征）的类别个数,eg,第一列有3个类别，二~2，三~2，四~3
#经验条件熵
newEntropy = 0.0
#计算信息增益
for value in uniqueVals: #eg 第一列 0 1 2
#subDataSet划分后的子集
subDataSet = splitDataSet(dataSet, i, value)
print("subDataSet=",subDataSet)
print("len of subDataSet=",len(subDataSet)) #第四列 5 6 4
#计算子集的概率
prob = len(subDataSet) / float(len(dataSet)) #第一列 5/15 6/15 4/15
#根据公式计算经验条件熵
newEntropy += prob * calcShannonEnt((subDataSet))
#信息增益
infoGain = baseEntropy - newEntropy
#打印每个特征的信息增益
print("第%d个特征的增益为%.3f" % (i, infoGain))
#计算信息增益
if (infoGain > bestInfoGain):
#更新信息增益，找到最大的信息增益
bestInfoGain = infoGain
#记录信息增益最大的特征的索引值
bestFeature = i
#返回信息增益最大特征的索引值
return bestFeature

"""
函数说明：按照给定特征划分数据集
Parameters：
dataSet：待划分的数据集
axis：划分数据集的特征
value：需要返回的特征的值
Returns：
shannonEnt：经验熵
Modify：
2018-03-12

"""
def splitDataSet(dataSet,axis,value):
retDataSet=[]
for featVec in dataSet:
if featVec[axis]==value:
reducedFeatVec=featVec[:axis]
reducedFeatVec.extend(featVec[axis+1:])
retDataSet.append(reducedFeatVec)
return retDataSet

#main函数
if __name__=='__main__':
dataSet,features=creatDataSet()
# print(dataSet)
# print(calcShannonEnt(dataSet))
print("最优索引值："+str(chooseBestFeatureToSplit(dataSet)))
```
结果截图：
![这里写图片描述](https://img-blog.csdn.net/20180827174746454?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIyNzAzMjA1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

posted @ 2019-03-12 23:37 sharryling 阅读(231) 评论(0) 收藏举报

刷新页面返回顶部

sharryling

决策树

公告