作业二:决策树算法
|20大数据三班|
|201613328|
【题目1】
表1所示的数据集表示豌豆种子在不同环境下能否发芽情况。豌豆种子自身有形状、大小和种皮颜色等特征,外部影响环境有土壤、水分和日照等特征。试通过所示数据集构建ID3决策树并根据最后一行测试数据预测该豌豆能否发芽。
【要求】
1.画出完整决策树;
2.预测测试1用例的发芽情况;
3.请大家在博客中直接完成或在作业本上完成后拍照上传。
表1 豌豆种子在不同环境下发芽情况数据表
编号 | 形状 | 颜色 | 大小 | 土壤 | 水份 | 日照 | 发芽 |
1 | 圆形 | 灰色 | 饱满 | 酸性 | 多 | 12小时以上 | 否 |
2 | 圆形 | 白色 | 缢缩 | 碱性 | 少 | 12小时以上 | 是 |
3 | 皱形 | 白色 | 饱满 | 碱性 | 多 | 12小时以上 | 否 |
4 | 皱形 | 灰色 | 饱满 | 酸性 | 多 | 12小时以下 | 是 |
5 | 圆形 | 白色 | 缢缩 | 碱性 | 少 | 12小时以下 | 是 |
6 | 皱形 | 灰色 | 缢缩 | 酸性 | 少 | 12小时以上 | 是 |
7 | 圆形 | 白色 | 饱满 | 酸性 | 少 | 12小时以下 | 是 |
8 | 皱形 | 灰色 | 缢缩 | 碱性 | 多 | 12小时以下 | 否 |
9 | 圆形 | 灰色 | 缢缩 | 碱性 | 少 | 12小时以上 | 否 |
测试1 | 圆形 | 白色 | 饱满 | 碱性 | 多 | 12小时以下 | ? |
【题目2】
表2是一个由16个样本组成的感冒诊断训练数据集𝐷。每个样本由四个特征组成,即体温、流鼻涕、肌肉疼、头疼。其中体温特征有3个可能取值:普通、较高、非常高;流鼻涕,肌肉疼、头疼分别有两个可能取值:是、否;样本的标注值为是否感冒。试用ID3或C4.5算法通过训练数据集𝐷建立一个用于判断是否感冒的决策树。
【要求】
1.画出完整决策树;
表2 感冒诊断数据表
【要求】
1.写出决策树实现的基本步骤和关键公式;
2.写出决策树实现的详细计算过程;
3.本题实现可采用ID3或C4.5算法,建立使用C4.5算法;
4.请大家在博客中直接完成或在作业本上完成后拍照上传。
题目一: