# 导入必要的库
from sklearn import datasets # 用于加载数据集
from sklearn.model_selection import train_test_split, cross_val_score # 用于数据划分和交叉验证
from sklearn.naive_bayes import GaussianNB # 用于朴素贝叶斯分类
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix # 用于模型评估
import numpy as np # 用于数学运算
# 加载iris数据集
iris = datasets.load_iris()
X = iris.data # 特征数据
y = iris.target # 标签数据
# 使用留出法留出1/3的样本作为测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/3, random_state=42) # 随机划分训练集和测试集
# 使用训练集训练朴素贝叶斯分类算法
gnb = GaussianNB() # 创建高斯朴素贝叶斯分类器实例
gnb.fit(X_train, y_train) # 训练模型
# 使用五折交叉验证对模型性能进行评估
scores = cross_val_score(gnb, X_train, y_train, cv=5) # 五折交叉验证
print("五折交叉验证准确度: {:.3f}".format(np.mean(scores))) # 打印平均准确度,精确到小数点后三位
# 使用测试集测试模型的性能
y_pred = gnb.predict(X_test) # 在测试集上进行预测
# 计算性能指标
accuracy = accuracy_score(y_test, y_pred) # 准确度
precision = precision_score(y_test, y_pred, average='macro') # 精度
recall = recall_score(y_test, y_pred, average='macro') # 召回率
f1 = f1_score(y_test, y_pred, average='macro') # F1值
# 打印性能指标,精确到小数点后三位
print("测试集准确度: {:.3f}".format(accuracy))
print("测试集精度: {:.3f}".format(precision))
print("测试集召回率: {:.3f}".format(recall))
print("测试集F1值: {:.3f}".format(f1))
# 打印分类报告
print("分类报告:")
print(classification_report(y_test, y_pred, target_names=iris.target_names)) # 打印详细的分类性能报告
# 打印混淆矩阵
print("混淆矩阵:")
print(confusion_matrix(y_test, y_pred)) # 打印混淆矩阵
# 打印训练集预测结果
y_train_pred = gnb.predict(X_train) # 在训练集上进行预测
print("\n训练集准确度: {:.3f}".format(accuracy_score(y_train, y_train_pred))) # 打印训练集准确度,精确到小数点后三位
print("训练集分类报告:")
print(classification_report(y_train, y_train_pred, target_names=iris.target_names)) # 打印训练集的分类性能报告
# 打印训练集和测试集的前几个预测结果
print("\n训练集前几个预测结果:")
for i in range(5):
print(f"实际: {y_train[i]}, 预测: {y_train_pred[i]}")
print("\n测试集前几个预测结果:")
for i in range(5):
print(f"实际: {y_test[i]}, 预测: {y_pred[i]}")