统计学习方法 课后习题第五章

5.1 根据表5.1所给的训练数据集,利用信息增益比(C4.5算法)生成决策树。

注意这里是用信息增益比哦,from sklearn.tree import DecisionTreeClassifier这里默认是gini

首先计算数据集D的经验熵H(D)
H(D)=615log2615915log2915=0.97095

H(D|A1)=515(35log23525log225)+515(35log23525log225)+515(15log21545log245)=0.88794

H(D|A2)=515(55log25505log205)+1015(610log2610410log2410)=0.64730

H(D|A3)=615(66log26606log206)+915(39log23969log269)=0.55098

然后计算数据集D关于各个特征A的值的熵HA(D)
HA1(D)=515log2515515log2515515log2515=1.58496

HA2(D)=515log25151015log21015=0.91830

HA3(D)=615log2615915log2915=0.97095

HA4(D)=515log2515615log2615415log2415=1.56605

好了,可以计算各个特征的信息增益比gR(D,A)
gR(D,A1)=H(D)H(D|A1)HA1(D)=0.970950.887941.58496=0.05237

gR(D,A2)=H(D)H(D|A1)HA2(D)=0.970950.647300.91830=0.35244

gR(D,A3)=H(D)H(D|A1)HA3(D)=0.970950.550980.97095=0.43253

gR(D,A4)=H(D)H(D|A1)HA4(D)=0.970950.607961.56605=0.23179

选择信息增益比最大的特征A3,“有自己的房子”,作为分支的特征条件,把数据集D分为两部分D1,D2,如下图所示:

D1D2D1,D2A1,A2,A4.D1D2H(D2)

H(D2)=39log23969log269=0.91830

H(D2|A)

H(D2|A1)=49(14log21434log234)+29(02log202222log222)+39(13log21323log223)=0.66667
H(D2|A2)=390+690=0
H(D2|A4)=490+49(24log22424log224)+190=0.44444

D2HA(D2)

HA1(D2)=49log24929log22939log239=1.53050

HA2(D2)=39log23969log269=0.91830

HA4(D2)=49log24949log24919log219=1.39214

下面计算各个特征的信息增益比:

gR(D2,A1)=H(D2)H(D2|A1)HA1(D2)=0.918300.666671.53050=0.16441

gR(D2,A2)=H(D2)H(D2|A2)HA2(D2)=0.9183000.91830=1

gR(D2,A4)=H(D2)H(D2|A4)HA4(D2)=0.918300.444441.39214=0.34038

A2D2D3:D4:

D3,D4A1,A4D3D4

5.2 试用平方误差准则生成一个二叉回归树


c1,c2的值代入到均方差中,如下:
m(1)=0+{(4.756.85)2+(4.916.85)2+(5.346.85)2+(5.806.85)2+(7.056.85)2+(7.906.85)2+(8.236.85)2+(8.706.85)2+(9.006.85)2}=22.65




posted @   种树人  阅读(1525)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
点击右上角即可分享
微信分享提示