<数据挖掘导论>读书笔记3--分类

1.分类的基本概念

分类任务就是通过学习得到一个目标函数f，把每个属性集x映射到一个预先定义的类标号y

目标函数也称为分类模型。

2. 解决分类问题的一般方法：

决策树分类法

基于规则的分类法

神经网络

支持向量机

朴素贝叶斯分类法

3.决策树归纳

通常采用贪心策略，在选择划分数据的属性时，采用一系列局部最优决策来构造决策树，hunt算法就是一种这样的算法。

Hunt算法是许多决策树算法的基础，包括ID3,C4.5，CART等

决策树归纳的设计问题

如何分裂训练记录？选择最佳划分的度量，增益是一种可以用来确定划分效果的标准。信息增益--信息熵的差

如何停止分裂过程

4.模型的过分拟合

分类模型的误差大致分为两种：训练误差和泛化误差。

训练误差也称为再代入误差或表现误差，是在训练记录上误分类样本比例

泛化误差是模型在未知记录上的期望误差

模型拟合不足：当决策树很少时，训练和检验误差都很大。出现拟合不足的原因是模型尚未学习到数据的真实结构，因此模型在训练集和检验集上的性能都很差。

模型过分拟合：随着决策树中节点数的增加，模型的训练误差和检验误差都随之降低，然而，一旦树的规模变的很大，即使训练误差还在继续降低，但是检验误差开始增大。

造成模型过分拟合的因素

噪声导致的过分拟合

缺乏代表性样本导致的过分拟合

泛化误差估计

使用再代入估计

结合模型复杂度：欧卡姆剃刀

估计统计上界

使用确认集

5.评估分类器的性能

保持方法

随机二次抽样

交叉验证

自助法bootstrap

6.比较分类器的方法

估计准确度的置信区间

比较两个模型的性能

比较两种分类法的性能

posted on 2018-09-18 10:44 一天不进步，就是退步阅读(202) 评论(0) 编辑收藏举报