Datawhale组队学习_Task03：详读西瓜书+南瓜书第4章

第4章决策树

4.1 基本流程

#输入：训练集D={${(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}$};
     #属性集A=${{a_1,a_2,...,a_d}}$.
#过程：函数TreeGeneratw(D,A)
1:生成结点node；
2:if D中样本全属于同一类别C then
3:  将node标记为C类叶结点；return
4:end if
5:if A=${\emptyset}$ OR D中样本在A上取值相同 then
6:  将node标记为叶结点，其类别标记为D中样本数最多的类；return
7:end if
8:从A中选择最优划分属性${a_*}$;
9:for ${a_*}$ 的每一个值${a_*^v}$ do
10:  为node生成一个分支；令D_v表示D中在a_*上取值为a_*^v的样本子集；
11:  if D_v 为空 then
12:    将分支结点标记为叶结点，其类别标记为D中样本最多的类；return
13:  else
14:    以TreeGenerate(D_v,A\{A_*})为分支结点
15:  end if
16: end for
输出：以node为根结点的一棵决策树

决策树的本质就是整个分类过程的具体操作过程，如前置条件满足则进行后续判断，否则则或是输出分类结果，或是继续进行其他分类结果的过程判断。

4.2 划分选择

4.3 剪枝处理

4.4 连续与缺失值

4.5 多变量决策树

posted @ 2021-10-20 13:48 Mundane-_- 阅读(40) 评论(0) 编辑收藏举报

刷新页面返回顶部

Mundane-_-

Datawhale组队学习_Task03：详读西瓜书+南瓜书第4章

第4章 决策树

4.1 基本流程

4.2 划分选择

4.3 剪枝处理

4.4 连续与缺失值

4.5 多变量决策树

公告

第4章决策树