上机实验六：朴素贝叶斯算法实现与测试

# 导入必要的库
from sklearn import datasets  # 用于加载数据集
from sklearn.model_selection import train_test_split, cross_val_score  # 用于数据划分和交叉验证
from sklearn.naive_bayes import GaussianNB  # 用于朴素贝叶斯分类
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix  # 用于模型评估
import numpy as np  # 用于数学运算

# 加载iris数据集
iris = datasets.load_iris()
X = iris.data  # 特征数据
y = iris.target  # 标签数据

# 使用留出法留出1/3的样本作为测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/3, random_state=42)  # 随机划分训练集和测试集

# 使用训练集训练朴素贝叶斯分类算法
gnb = GaussianNB()  # 创建高斯朴素贝叶斯分类器实例
gnb.fit(X_train, y_train)  # 训练模型

# 使用五折交叉验证对模型性能进行评估
scores = cross_val_score(gnb, X_train, y_train, cv=5)  # 五折交叉验证
print("五折交叉验证准确度: {:.3f}".format(np.mean(scores)))  # 打印平均准确度，精确到小数点后三位

# 使用测试集测试模型的性能
y_pred = gnb.predict(X_test)  # 在测试集上进行预测

# 计算性能指标
accuracy = accuracy_score(y_test, y_pred)  # 准确度
precision = precision_score(y_test, y_pred, average='macro')  # 精度
recall = recall_score(y_test, y_pred, average='macro')  # 召回率
f1 = f1_score(y_test, y_pred, average='macro')  # F1值

# 打印性能指标，精确到小数点后三位
print("测试集准确度: {:.3f}".format(accuracy))
print("测试集精度: {:.3f}".format(precision))
print("测试集召回率: {:.3f}".format(recall))
print("测试集F1值: {:.3f}".format(f1))

# 打印分类报告
print("分类报告：")
print(classification_report(y_test, y_pred, target_names=iris.target_names))  # 打印详细的分类性能报告

# 打印混淆矩阵
print("混淆矩阵：")
print(confusion_matrix(y_test, y_pred))  # 打印混淆矩阵

# 打印训练集预测结果
y_train_pred = gnb.predict(X_train)  # 在训练集上进行预测
print("\n训练集准确度: {:.3f}".format(accuracy_score(y_train, y_train_pred)))  # 打印训练集准确度，精确到小数点后三位
print("训练集分类报告：")
print(classification_report(y_train, y_train_pred, target_names=iris.target_names))  # 打印训练集的分类性能报告

# 打印训练集和测试集的前几个预测结果
print("\n训练集前几个预测结果：")
for i in range(5):
    print(f"实际: {y_train[i]}, 预测: {y_train_pred[i]}")

print("\n测试集前几个预测结果：")
for i in range(5):
    print(f"实际: {y_test[i]}, 预测: {y_pred[i]}")