Numpy实现机器学习交叉验证的数据划分

本文总字数:1628,阅读预计需要:4分钟

Numpy实现K折交叉验证的数据划分

本实例使用Numpy的数组切片语法,实现了K折交叉验证的数据划分

背景:K折交叉验证

为什么需要这个?
在机器学习中,因为如下原因,使用K折交叉验证能更好评估模型效果:

  1. 样本量不充足,划分了训练集和测试集后,训练数据更少;
  2. 训练集和测试集的不同划分,可能会导致不同的模型性能结果;

K折验证是什么
K折验证(K-fold validtion)将数据划分为大小相同的K个分区。
对每个分区i,在剩余的K-1个分区上训练模型,然后在分区i上评估模型。
最终分数等于K个分数的平均值,使用平均值来消除训练集和测试集的划分影响;

1. 模拟构造样本集合

用样本的角度解释下data数组:

  • 这是一个二维矩阵,行代表每个样本,列代表每个特征
  • 这里有9个样本,每个样本有4个特征

这是scikit-learn模型训练输入的标准格式

2. 使用Numpy实现K次划分

复制代码
for fold in range(k):
    validation_begin = k_samples_count*fold
    validation_end = k_samples_count*(fold+1)
    
    validation_data = data[validation_begin:validation_end]
    
    # np.vstack,沿着垂直的方向堆叠数组
    train_data = np.vstack([
        data[:validation_begin], 
        data[validation_end:]
    ])
    
    print()
    print(f"#####第{fold}折#####")
    print("验证集:\n", validation_data)
    print("训练集:\n", train_data)
复制代码
结果:
#####第0折##### 验证集: [[0 1 2 3] [4 5 6 7]] 训练集: [[ 8 9 10 11] [12 13 14 15] [16 17 18 19] [20 21 22 23] [24 25 26 27] [28 29 30 31] [32 33 34 35]] #####第1折##### 验证集: [[ 8 9 10 11] [12 13 14 15]] 训练集: [[ 0 1 2 3] [ 4 5 6 7] [16 17 18 19] [20 21 22 23] [24 25 26 27] [28 29 30 31] [32 33 34 35]] #####第2折##### 验证集: [[16 17 18 19] [20 21 22 23]] 训练集: [[ 0 1 2 3] [ 4 5 6 7] [ 8 9 10 11] [12 13 14 15] [24 25 26 27] [28 29 30 31] [32 33 34 35]] #####第3折##### 验证集: [[24 25 26 27] [28 29 30 31]] 训练集: [[ 0 1 2 3] [ 4 5 6 7] [ 8 9 10 11] [12 13 14 15] [16 17 18 19] [20 21 22 23] [32 33 34 35]]

如果使用scikit-learn,已经有封装好的实现:
from sklearn.model_selection import cross_val_score

 

posted @   北极星!  阅读(467)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 通过 API 将Deepseek响应流式内容输出到前端
· AI Agent开发,如何调用三方的API Function,是通过提示词来发起调用的吗
点击右上角即可分享
微信分享提示