python模型建立学习1

1 数据集划分
在机器学习问题中，从理论上我们需要对数据集划分为训练集、验证集、测试集。

训练集：拟合模型（平常的作业和测试）
验证集：计算验证集误差，选择模型（模拟考）
测试集：评估模型（最终考试）但是在实际应用中，一般分为训练集和测试集两个。其中训练集：70%，测试集：30%.这个比例在深度学习中可以进行相应的调整。我们可以使用sklearn中的train_test_split划分数据集
# 导入相关库
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import metrics
from sklearn.model_selection import KFold, cross_val_score
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
import pandas as pd

1
2
3
4
5
6
7
8
9
10
# 导入数据
df = pd.read_csv(r'C:\Users\DELL\data-science-learning\seaborn-data\iris.csv')
df.shape

1
2
3
4
(150, 5)

1
2
# 划分数据集和测试集
train_set, test_set = train_test_split(df, test_size=0.3,
random_state=12345)

1
2
3
4
train_set.shape, test_set.shape

1
2
((105, 5), (45, 5))

1
2
可以看出此时训练集只有105个数据，测试集有45个数据。
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/Saki_Python/article/details/133015935

posted @ 2024-01-21 20:37 意い十三章阅读(13) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 4.13号今日总结

· 实验 4 RDD 编程初级实践

· 数据集划分方法

· [Python]-sklearn.model_selection模块-处理数据集

· 数据集区分

阅读排行：
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码？试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码！GitHub神秘组织3小时极速复刻Manus，手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署

公告

昵称：意い十三章
园龄： 2年8个月
粉丝： 0
关注： 7

+加关注

2025年3月

日

一

二

三

四

五

六

黑马之道

以梦为马不负韶华

python模型建立学习1

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

黑马之道

以梦为马 不负韶华

python模型建立学习1

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

以梦为马不负韶华