摘要: 五、剪枝处理 过拟合:在决策树学习过程中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多,这时就可能会因训练样本学得太好,以致于把训练集自身的一些特点当作所有数据都具有的一般性质导致过拟合。 剪枝:对付过拟合的一种重要手段,通过主动去掉一些分支来降低过拟合的风险。 基本 阅读全文
posted @ 2020-02-04 20:41 泰初 阅读(8736) 评论(0) 推荐(3) 编辑
摘要: 六、连续与缺失值 1、连续值处理 到目前为止我们仅讨论了基于离散属性来生成决策树,现实学习任务中常常遇到连续属性,有必要讨论如何在决策树学习中使用连续属性。我们将相邻的两个属性值的平均值作为候选点。 基本思路:连续属性离散化。 常见做法:二分法(这正是C4.5决策树算法中采用的机制)。 对于连续属性 阅读全文
posted @ 2020-02-04 19:30 泰初 阅读(2281) 评论(0) 推荐(0) 编辑