定义
-
训练集(Training Set):
- 训练集是用来训练机器学习模型的数据集。
- 模型通过训练集中的样本学习关联模式、特征,以便能够对新数据进行预测或分类。
- 训练集的质量和数量对模型性能有着重要的影响。
-
测试集(Test Set):
- 测试集用于最终评估模型的性能,检查模型对未见过的数据的泛化能力。
- 模型在测试集上的表现是对其在真实场景中的预测能力的一种估计。
- 测试集应该是模型在训练和验证过程中没有接触到的独立数据。
数据集划分:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | from sklearn.model_selection import train_test_split # 假设X是特征,y是标签 X, y = your_data # 请替换为你的实际数据 # 划分数据集 X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.2, random_state=42) # 将剩余的20%划分为验证集和测试集(各占总数据的一半) X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42) # 打印各个集合的大小 print( "训练集大小:" , len(X_train)) print( "验证集大小:" , len(X_val)) print( "测试集大小:" , len(X_test)) |
1 | X_train训练的数据,是输入到model |
1 | y_train,训练的label,输入到损失函数 |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!