决策树学习

  参考:

  1. 信息熵

  2. 最大熵原理1

  3. 最大熵原理2

  4. 信息增益比率

  5. A Mathematical Theory of Communication

 

  内容:

  1. 泛化能力是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,即泛化能力。

  2. 决策树学习是一种逼近离散值目标函数的方法,且学习到的函数被表示为一棵决策树。该树的叶子结点即为所属的分类。通过if语句可翻译这棵树。通常决策树代表实例属性值约束的合取的析取式(只表示true的情况,其它的都是false)。它是一个分类问题。

  3. 熵(entropy)是信息论中广泛使用的一个度量标准,它刻画了任意样例集的纯度(purity)或者说是均一性。给定包含关于某个目标概念的正反样例的样例集S,那么S相对这个布尔型分类的熵为:Entropy(S) ≡ -p log2p - pΘ log2pΘ 其中,p⊕是在S中正例的比例,pΘ是在S中反例的比例。信息论中熵的一种解释是,熵确定了要编码集合S中任意成员(即以均匀的概率随机抽出的一个成员)的分类所需要的最少二进制位数。如果目标属性具有c个不同的值,那么S相对于c个状态(c-wise)的分类的熵定义为:,其中,pi是S中类别i的比例。注意:对数的底数任然是2,因为熵是以二进制位的个数来度量编码长度的。另外,如果目标属性具有c个可能值,那么熵最大可能是即pi为1/c

  4. 信息熵是随机变量的期望,度量信息的不确定性程度。信息的熵越大,信息就越不容易搞清楚。处理信息就是为了把信息搞清楚,即熵减少的过程。具体的理解是熵越大,它包含的状态就越多,就是上边的c越大,内容也越复杂。

  5. 信息增益用于度量属性A降低样本集合X熵的贡献的大小。信息增益越大,越适于对X分类(最大熵定理)。

  一个属性A相对样例集合S的信息增益Gain(S, A)被定义为:

  

  其中,Values(A)是属性A所有可能值的集合,Sv是S中属性A的值为v的子集

  6. 信息增益比率(Information Gain Ratio):IGR is a ratio of information gain to the intrinsic information. It is used to reduce a bias towards multi-valued attributes by taking the number and size of branches into account when choosing an attribute。 它通过分裂信息(split information)用来衡量属性分裂数据的广度和均匀性。

  

  其中,S1到Sc是c个值的属性A分割S而形成的c个样例子集。注意:分裂信息实际上就是S关于属性A的各个值的熵。

  信息增益比率是用增益和分裂信息来共同定义的。

  

  注意:分裂信息项阻碍了选择值为均匀分布的属性。实际应用中,我们可以先计算某个属性的增益,然后仅对那些增益高过平均值的属性应用增益比率测试。

  7. ID3(Iterative Dichotomiser 3,迭代二叉树3代)算法通过自顶向下构造决策树来进行学习。这里的评估函数是信息增益度量。

  ID3(Examples, Target_attribute, Attributes)

    Examples即训练样例集。Target_attribute是这棵数要预测的目标属性。Attributes是除目标属性外学习到的决策树测试的属性列表。返回一棵能正确分类给定Examples的决策树。

  • 创建树的Root结点
  • 如果Examples都为正,那么返回label = + 的单结点树Root
  • 如果Examples都为反,那么返回label = - 的单结点树Root
  • 如果Attributes为空,那么返回单结点树Root,label = Examples中最普遍的Target_attribute值
  • 否则开始
    • A ←Attributes中分类Examples能力最好的属性(具有最高信息增益的属性)
    • Root的决策属性←A
    • 对于A的每个可能值vi
      • 在Root下加一个新的分支对应测试A = vi
      • 令Examplesvi为Examples中满足A属性值为vi的子集
      • 如果Examplesvi为空
        • 在这个新分支下加一个叶子结点,结点的label = Examples中最普遍的Target_attributes值
        • 否则在这个新分支下加一个子树ID3(Examplesvi, Target_attribute, Attributes - { A })
  • 结束
  • 返回Root

  注意:1. 假设空间可能不包含目标函数。 2. 当遍历决策树空间时,ID3仅维护单一的当前假设,失去了表示所有一致假设带来的优势。3. ID3算法在搜索中不进行回溯。

  8. 归纳偏置:当学习器去预测其未遇到过的输入的结果时,会做一些假设,而学习算法中归纳偏执就是这些假设的集合。

  9. ID3选择在使用简单到复杂的爬山算法遍历可能的树空间时,遇到的第一个可接受的树。即ID3算法的归纳偏执为:较短的树比较长的树优先,且那些信息增益高的属性更靠近根结点的树优先。

  10. Occam's razor(奥坎姆剃刀法则):Entities should not be multipled unnecessary(优先选择拟合数据的最简单假设)。

  11. 过度拟合:给定一个假设空间H,一个假设h H,如果存在其它的假设h' H,使得在训练样例上h的错误率比h'小,但在整个实例分布上h'的错误率比h小,那么就说假设h过度拟合。

posted @ 2016-11-02 01:44  motein  阅读(262)  评论(0编辑  收藏  举报