定义

  1. 训练集(Training Set):

    • 训练集是用来训练机器学习模型的数据集。
    • 模型通过训练集中的样本学习关联模式、特征,以便能够对新数据进行预测或分类。
    • 训练集的质量和数量对模型性能有着重要的影响。
  2. 测试集(Test Set):

    • 测试集用于最终评估模型的性能,检查模型对未见过的数据的泛化能力。
    • 模型在测试集上的表现是对其在真实场景中的预测能力的一种估计。
    • 测试集应该是模型在训练和验证过程中没有接触到的独立数据。

 数据集划分:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
from sklearn.model_selection import train_test_split
 
# 假设X是特征,y是标签
X, y = your_data  # 请替换为你的实际数据
 
# 划分数据集
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.2, random_state=42)
 
# 将剩余的20%划分为验证集和测试集(各占总数据的一半)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)
 
# 打印各个集合的大小
print("训练集大小:", len(X_train))
print("验证集大小:", len(X_val))
print("测试集大小:", len(X_test))

  

 

1
X_train训练的数据,是输入到model
1
y_train,训练的label,输入到损失函数
posted on   黑逍逍  阅读(59)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!



点击右上角即可分享
微信分享提示