python模型建立学习1

1 数据集划分
在机器学习问题中,从理论上我们需要对数据集划分为训练集、验证集、测试集。

训练集:拟合模型(平常的作业和测试)
验证集:计算验证集误差,选择模型(模拟考)
测试集:评估模型(最终考试) 但是在实际应用中,一般分为训练集和测试集两个。其中训练集:70%,测试集:30%.这个比例在深度学习中可以进行相应的调整。 我们可以使用sklearn中的train_test_split划分数据集
# 导入相关库
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import metrics
from sklearn.model_selection import KFold, cross_val_score
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
import pandas as pd

1
2
3
4
5
6
7
8
9
10
# 导入数据
df = pd.read_csv(r'C:\Users\DELL\data-science-learning\seaborn-data\iris.csv')
df.shape

1
2
3
4
(150, 5)

1
2
# 划分数据集和测试集
train_set, test_set = train_test_split(df, test_size=0.3,
random_state=12345)

1
2
3
4
train_set.shape, test_set.shape

1
2
((105, 5), (45, 5))

1
2
可以看出此时训练集只有105个数据,测试集有45个数据。
————————————————

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:https://blog.csdn.net/Saki_Python/article/details/133015935

posted @   意い十三章  阅读(13)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署
点击右上角即可分享
微信分享提示