交叉检验---训练数据，验证数据和测试数据

最近在Coursera上学习Data Analysis课程，课程论坛中有个帖子针对交叉检验（Cross Validation）中训练数据集（train dataset），验证数据集(Validate dataset)和测试数据集(test dataset)展开讨论，内容挺好的，记录到这里，作为备忘。

交叉检验（Cross Validation）

在数据分析中，有些算法需要利用现有的数据构建模型，比如贝叶斯分类器，决策树，线性回归等，这类算法统称为监督学习（Supervisied Learning）算法。构建模型需要的数据称之为训练数据（Train Data）。

模型构建完后，需要利用数据验证模型的正确性，这部分数据被称为测试数据（Test Data）。测试数据不能用于模型构建之中，只能用于最后检验模型的准确性。

训练数据，验证数据和测试数据

一般做预测分析时，会将数据分为两大部分。一部分是训练数据，用于构建模型，一部分是测试数据，用于检验模型。但是，有时候模型的构建过程中也需要检验模型，辅助模型构建，所以会将训练数据在分为两个部分：1）训练数据；2）验证数据（Validation Data）。验证数据用于负责模型的构建。典型的例子是用K-Fold Cross Validation裁剪决策树，求出最优叶节点数，防止过渡拟合（Overfitting）。下面形式的描述一下前面提到的3类数据：

训练数据（Test Data）：用于模型构建
验证数据（Validation Data）：可选，用于辅助模型构建，可以重复使用。
测试数据（Test Data）：用于检测模型构建，此数据只在模型检验时使用，用于评估模型的准确率。绝对不允许用于模型构建过程，否则会导致过渡拟合。

K次交叉检验（K-Fold Cross Validation）

K次交叉检验的大致思想是将数据大致分为K个子样本，每次取一个样本作为验证数据，取余下的K-1个样本作为训练数据。模型构建后作用于验证数据上，计算出当前错误率。重复K次，将K次错误率平均，得到一个总体的错误率。可以通过整体错误率，估计当前整体数据用于建模的错误率。

举个例子，K = 10（常见情况），求出总体错误率为8.7%。那么将当前的所有数据全部作为训练数据，得到的模型的错误率90%的可能在9.7%左右。

参考资料

交叉验证Wik：ihttp://zh.wikipedia.org/wiki/%E4%BA%A4%E5%8F%89%E9%A9%97%E8%AD%89
Data Analysis on Coursera：https://class.coursera.org/dataanalysis-001/forum/thread?thread_id=2901

posted @ 2013-03-11 15:10 bourneli 阅读(21753) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 零经验选手，Compose 一天开发一款小游戏！
· AI Agent开发，如何调用三方的API Function，是通过提示词来发起调用的吗

公告

“练习一万小时成天才！” - 摘自《异类》

昵称： bourneli
园龄： 13年4个月
粉丝： 176
关注： 9

+加关注

2013年3月

日

一

二

三

四

五

六

bourneli(李伯韬)的技术博客

博客搬家了，新的日志会在一数一世界更新！

交叉检验---训练数据，验证数据和测试数据

公告

最新随笔

我的标签

积分与排名

随笔分类 (92)

随笔档案 (119)

文章分类 (23)

文章档案 (17)

友情链接

阅读排行榜

评论排行榜

推荐排行榜

最新评论