决策树学习

　　参考：

　　5. A Mathematical Theory of Communication

　　内容：

　　1. 泛化能力是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，即泛化能力。

　　2. 决策树学习是一种逼近离散值目标函数的方法，且学习到的函数被表示为一棵决策树。该树的叶子结点即为所属的分类。通过if语句可翻译这棵树。通常决策树代表实例属性值约束的合取的析取式（只表示true的情况，其它的都是false）。它是一个分类问题。

　　3. 熵（entropy）是信息论中广泛使用的一个度量标准，它刻画了任意样例集的纯度（purity）或者说是均一性。给定包含关于某个目标概念的正反样例的样例集S，那么S相对这个布尔型分类的熵为：Entropy(S) ≡ -p⊕ log₂p⊕ - pΘ log₂pΘ 其中，p⊕是在S中正例的比例，pΘ是在S中反例的比例。信息论中熵的一种解释是，熵确定了要编码集合S中任意成员（即以均匀的概率随机抽出的一个成员）的分类所需要的最少二进制位数。如果目标属性具有c个不同的值，那么S相对于c个状态(c-wise)的分类的熵定义为：，其中，p_i是S中类别i的比例。注意：对数的底数任然是2，因为熵是以二进制位的个数来度量编码长度的。另外，如果目标属性具有c个可能值，那么熵最大可能是，即pi为1/c。

　　4. 信息熵是随机变量的期望，度量信息的不确定性程度。信息的熵越大，信息就越不容易搞清楚。处理信息就是为了把信息搞清楚，即熵减少的过程。具体的理解是熵越大，它包含的状态就越多，就是上边的c越大，内容也越复杂。

　　5. 信息增益用于度量属性A降低样本集合X熵的贡献的大小。信息增益越大，越适于对X分类（最大熵定理）。

　　一个属性A相对样例集合S的信息增益Gain(S, A)被定义为:

　　其中，Values(A)是属性A所有可能值的集合，S_v是S中属性A的值为v的子集。

　　6. 信息增益比率（Information Gain Ratio）：IGR is a ratio of information gain to the intrinsic information. It is used to reduce a bias towards multi-valued attributes by taking the number and size of branches into account when choosing an attribute。它通过分裂信息（split information）用来衡量属性分裂数据的广度和均匀性。

　　其中，S₁到S_c是c个值的属性A分割S而形成的c个样例子集。注意：分裂信息实际上就是S关于属性A的各个值的熵。

　　信息增益比率是用增益和分裂信息来共同定义的。

　　注意：分裂信息项阻碍了选择值为均匀分布的属性。实际应用中，我们可以先计算某个属性的增益，然后仅对那些增益高过平均值的属性应用增益比率测试。

　　7. ID3（Iterative Dichotomiser 3，迭代二叉树3代）算法通过自顶向下构造决策树来进行学习。这里的评估函数是信息增益度量。

　　ID3(Examples, Target_attribute, Attributes)

　　　　Examples即训练样例集。Target_attribute是这棵数要预测的目标属性。Attributes是除目标属性外学习到的决策树测试的属性列表。返回一棵能正确分类给定Examples的决策树。

创建树的Root结点
如果Examples都为正，那么返回label = + 的单结点树Root
如果Examples都为反，那么返回label = - 的单结点树Root
如果Attributes为空，那么返回单结点树Root，label = Examples中最普遍的Target_attribute值
否则开始
- A ←Attributes中分类Examples能力最好的属性（具有最高信息增益的属性）
- Root的决策属性←A
- 对于A的每个可能值vi
  - 在Root下加一个新的分支对应测试A = vi
  - 令Examples_vi为Examples中满足A属性值为vi的子集
  - 如果Examplesvi为空
    - 在这个新分支下加一个叶子结点，结点的label = Examples中最普遍的Target_attributes值
    - 否则在这个新分支下加一个子树ID3(Examples_vi, Target_attribute, Attributes - { A })
结束
返回Root

　　注意：1. 假设空间可能不包含目标函数。 2. 当遍历决策树空间时，ID3仅维护单一的当前假设，失去了表示所有一致假设带来的优势。3. ID3算法在搜索中不进行回溯。

　　8. 归纳偏置：当学习器去预测其未遇到过的输入的结果时，会做一些假设，而学习算法中归纳偏执就是这些假设的集合。

　　9. ID3选择在使用简单到复杂的爬山算法遍历可能的树空间时，遇到的第一个可接受的树。即ID3算法的归纳偏执为：较短的树比较长的树优先，且那些信息增益高的属性更靠近根结点的树优先。

　　10. Occam's razor（奥坎姆剃刀法则）：Entities should not be multipled unnecessary（优先选择拟合数据的最简单假设）。

　　11. 过度拟合：给定一个假设空间H，一个假设h ∈ H，如果存在其它的假设h' ∈ H，使得在训练样例上h的错误率比h'小，但在整个实例分布上h'的错误率比h小，那么就说假设h过度拟合。

posted @ 2016-11-02 01:44 motein 阅读(278) 评论(0) 编辑收藏举报

刷新页面返回顶部

motein

决策树学习

公告