机器学习实战二（Decision Tree）

机器学习实战二（decision tree）

我们经常使用决策树处理分类问题，近来也有研究表明，决策树是最经常使用的数据挖掘算法。决策树的概念十分简单，就是基于一系列的判断，有点像是编程语言中的条件判断，只不过条件的定义复杂一些。

决策树一个很重要的任务就是是提取数据中蕴含的知识信息，因此决策树可以使用不熟悉的数据集，从中提取规则，这个过程就是机器学习的过程，而且不像kNN每次都要重新计算，决策树训练的结果是可以保存的，只需训练一次即可，因此效率很高。

Decisiong Tree(决策树)

优点：计算相对容易，输入结果易于理解，对于缺失值不敏感，而且可以处理不相关特征数据

缺点：有时会产生过度匹配的问题

原理：决策树对于数据集的划分，是基于信息论中的概念，不同的特征，对于类别的表征强度是不同的，这就需要对于数据集的每个特征进行评估，然后制定规则，递归的采用这个过程。

决策树的算法不止一种，书里采用的是ID3算法。

先来看看基础的概念，如何度量信息？

1、信息增益

划分数据集的最大原则是：将无序的数据变得更加有序。这种无序或者有序的状态，可以用信息熵来衡量。划分数据集前后的熵的变化，称为信息增益，能取得最高信息增益的特征，就是最具有代表性的特征。

信息熵被定义为信息的期望值，计算公式如下：
\(l\left( x_{i}\right) =-\log _{2}P\left( x_{i}\right)\)

其中\(x_{i}\)代表某一类别。
那么所有类别总的信息期望值为：
\(H=-\sum ^{n}_{i=1}p\left( x_{i}\right) \log _{2}p\left( x_{i}\right)\)

Python代码如下：

from math import log
import operator
import pickle
from treePlotter import *

#计算香农熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet:
        currentLabel = featVec[-1]
        # dict中get的始用，避免条件判断
        labelCounts[currentLabel] = labelCounts.get(currentLabel, 0) + 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = labelCounts[key] / numEntries
        # 根据熵计算公式
        shannonEnt -= prob * log(prob, 2)
    return shannonEnt

信息越无序，则计算出来的熵就越大，因此可以用信息熵来定量化信息。

2、划分数据集

有了熵的计算，信息增益就比较好算了。先对原始数据集计算一次熵值，然后按照某个特征对数据集进行划分，然后计算划分后数据集的熵值，两者相减，即可计算出信息增益，取其中信息增益最大的特征，然后就是一个递归的。

根据某一特征划分数据集是简单的。

# 划分数据集
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatureVec = featVec[:axis]
            reducedFeatureVec.extend(featVec[axis + 1:])
            retDataSet.append(reducedFeatureVec)
    return  retDataSet

那么选择最好的特征就要将划分数据集与信息增益结合。

# 选择最好的数据集划分
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1
    # 原始熵值
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):
        featList =  [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            # 计算划分后的熵值
            prob = len(subDataSet) / len(dataSet)
            newEntropy += prob * calcShannonEnt(subDataSet)
        # 信息增益是熵的减少
        infoGain = baseEntropy - newEntropy
        if(infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

3、递归构建决策树

基本的模块已经写好，剩下的就是将它们组合成决策树的流程了。

决策树是一棵递归的树，这就需要声明递归终止的条件。条件有两个：

按照某一属性划分类别没有变化，终止
所有属性均已耗尽，但是类别标签依旧不唯一，这种情况通常采用多数表决的方式，以出现次数最多标签作为类别标签。

# 投票表决
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        classCount[vote] = classCount.get(vote, 0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1),
                              reverse=True)
    return sortedClassCount[0][0]

剩下的，就是创建决策树了。

# 创建树
def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    # 类别相同就终止
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    # 特征只有一个的时候投票表决
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel: {}}
    # 剔除分类过的标签
    del labels[bestFeat]
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        # list复制
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),
                                                  subLabels)
    return myTree

然后就可以执行分类了。

# 根据决策树执行分类
def classify(inputTree, featLabels, testVec):
    firstStr = list(inputTree.keys())[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    for key in secondDict:
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel

分类也是一个递归的过程，不困难。

4、决策树的存储

构造决策树是个很复杂的过程，但好在我们不需要每次都训练，这样的效率无疑很低，因此我们需要的，就是每次决策树构造好之后，我们就将它存储，需要的时候再读取进来，这里采用的是pickle序列化对象。

# 存储决策树
def storeTree(inputTree, filename):
    fw = open(filename, 'wb')
    pickle.dump(inputTree, fw)
    fw.close()


# 读取决策树
def grapTree(filename):
    fr = open(filename, 'rb')
    return pickle.load(fr)

无论是存储还是读取，都相当的简单。现在，就可以用手上训练好的规则，去检验整个世界了！

5、决策树绘制

原书中有关于决策树绘制的部分，很复杂，与机器学习关系不大，代码一并放在Github中，仅供参考。

决策树存在的问题：

优势特征太多，会导致过度匹配的问题，这时就需要对决策树进行修剪

本次采用ID3算法，还有CART和C4.5算法，后面会介绍到

ID3算法只能用于划分标称型数据集，无法处理数值型

Next：kNN和决策树是确定的分类算法，数据实例会被明确的划分到某个分类，下一章的分类算法将不能完全确定数据示例所属分类，只是给出概率，即朴素贝叶斯方法。

Reference：

posted @ 2018-01-04 16:47 plantree 阅读(270) 评论(0) 收藏举报

刷新页面返回顶部

Lucifer

我们坚持一件事，并不是因为这样做会有效果，而是坚信，这样做是对的。

机器学习实战二（Decision Tree）

机器学习实战二（decision tree）

Decisiong Tree(决策树)

1、信息增益

2、划分数据集

3、递归构建决策树

4、决策树的存储

5、决策树绘制

公告

Lucifer

我们坚持一件事，并不是因为这样做会有效果，而是坚信，这样做是对的。

机器学习实战二 （Decision Tree）

机器学习实战二 （decision tree）

Decisiong Tree(决策树)

1、信息增益

2、划分数据集

3、递归构建决策树

4、决策树的存储

5、决策树绘制

公告

机器学习实战二（Decision Tree）

机器学习实战二（decision tree）