from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report
# 1. 加载数据集
data = load_iris()
X = data.data
y = data.target
# 将数据集分为训练集和测试集,留出1/3作为测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, stratify=y)
# 2. 定义C4.5算法(带预剪枝)
clf = DecisionTreeClassifier(criterion='entropy', # 使用信息增益作为分裂标准
max_depth=5, # 预剪枝:设置最大深度
min_samples_split=4, # 预剪枝:最小样本数
random_state=42)
# 3. 使用五折交叉验证评估模型(准确率)
cv_scores = cross_val_score(clf, X_train, y_train, cv=5, scoring='accuracy')
# 输出交叉验证的准确率
print(f'交叉验证准确率:{cv_scores.mean()} ± {cv_scores.std()}')
# 4. 在训练集上训练模型
clf.fit(X_train, y_train)
# 5. 在测试集上进行预测
y_pred = clf.predict(X_test)
# 6. 打印测试集的评估报告(精度、召回率、F1值等)
print("\n分类报告(测试集):")
print(classification_report(y_test, y_pred))
# 7. 后剪枝(通过交叉验证选择最佳的模型)
# 完全生长的决策树,不设置max_depth
clf_full = DecisionTreeClassifier(criterion='entropy', random_state=42)
# 在训练集上训练完全生长的决策树
clf_full.fit(X_train, y_train)
# 使用交叉验证评估完全生长的模型
cv_full_scores = cross_val_score(clf_full, X_train, y_train, cv=5, scoring='accuracy')
# 输出后剪枝交叉验证的准确率
print(f'\n后剪枝交叉验证准确率:{cv_full_scores.mean()} ± {cv_full_scores.std()}')
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通