【机器学习基础】数据集的划分比例 - 鹅要长大 - 博客园

【机器学习基础】数据集的划分比例

前言

1）如果数据集较小(传统机器学习)时，一般采用简单交叉验证的方法，即不设置验证集，而只设置训练集和测试集.

根据西瓜书的观点，训练集和测试集的比例设置一般为 2:1 ~ 4:1 。根据目前所看到的方法，大多数将比例设置为7:3。

2）数据量较大(比如万级)
没有验证集，训练集：测试集=7：3；有验证集，训练集：验证集：测试集=6：2：2；
3）在深度学习中若是数据很大(比如百万级、亿级)，我们可以将训练集、验证集、测试集比例调整为98：1：1

参考

1. 机器学习 :训练集、验证集、测试集分配比例_Chris Kang的博客-CSDN博客；

2. 数据集的划分，验证集参与训练了吗?_无枒的博客-CSDN博客；

完

posted on 2023-04-28 14:34 鹅要长大阅读(2731) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 【CV项目实现】darknet_yolov3的理解、测试、训练和部署

· 【DL基础】训练DL网络loss出现Nan的原因分析

· 在机器学习项目中，将原始数据集划分为训练数据集和测试数据集划分比例的确定

· [数学理论] 训练集\开发集\测试集

· 数据集划分方法

阅读排行：
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】

历史上的今天：
2021-04-28 【leetcode_easy_math】892. Surface Area of 3D Shapes

公告

昵称：鹅要长大
园龄： 9年
粉丝： 118
关注： 35

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

统计

随笔 - 1074
文章 - 0
评论 - 55
阅读 - 114万

随笔分类

随笔档案

阅读排行榜

评论排行榜

最新评论

1. Re:【linux基础】linux 多个会话同时执行命令后history记录不全的解决方案
这个显示的登录IP有问题，测试的结果是登录IP只显示最后一次登录的IP，比如A用户的IP为192.168.100.100，然后操作之后退出，第二天B用户通过history命令查看，发现操作命令的登录I...
--John_2011
2. Re:【linux工具使用】FFmpeg工具的使用
6
--萧海~
3. Re:verilog实现中值滤波
@鹅要长大就是您的测试代码里最后保存输出结果的‘’medfilter2_re.txt‘’；边界要补零是吗，我明白了...
--空军的蔡
4. Re:verilog实现中值滤波
@空军的蔡哪个中值滤波txt文件？511*511=261121，滤波边界没有补0吧。...
--鹅要长大
5. Re:verilog实现中值滤波
感谢博主的分享！不过想问一下为什么最后输出的中值滤波txt文件中只有261121个值呢？比原图像512×512=262144数据少了1023个数，我想不明白。
--空军的蔡