Spark机器学习——模型选择与参数调优之交叉验证

spark 模型选择与超参调优

机器学习可以简单的归纳为通过数据训练y = f(x) 的过程，因此定义完训练模型之后，就需要考虑如何选择最终我们认为最优的模型。

如何选择最优的模型，就是本篇的主要内容：

模型验证的方法
超参数的选择
评估函数的选择

模型验证的方法

在《统计学习方法》这本书中，曾经讲过模型验证的方法有三种，分别是简单的交叉验证，S折交叉验证，留一交叉验证

简单的交叉验证

即把全部数据按照比例分割成两部分，分别是训练集和测试集。在训练集训练模型，在测试集测试效果，最终选择一个代价比较小的结果。一般是0.75。

S折交叉验证

设置S为一个数，一般是3或者10居多。如果是3，那么前2份作为训练集，最后一份作为测试集。

留一交叉验证

如果S的个数正好是样本的容量，就是留一交叉验证。

PS:
训练集是用于训练模型，测试集适用于判断此次训练效果。

在Spark MLLib中，为我们提供了两种验证方法，分别是

Cross-Validation ： S折交叉验证
Train-ValidationSplit：简单交叉验证

超参数的选择

在Spark MLLib中，超参数可以通过上面的验证方法，作为参数传进去：

// 定义超参数集合
val paramGrid = new ParamGridBuilder()
  .addGrid(hashingTF.numFeatures, Array(10, 100, 1000))
  .addGrid(lr.regParam, Array(0.1, 0.01))
  .build()
// 定义验证器
val cv = new CrossValidator()
  .setEstimator(pipeline)
  .setEvaluator(new BinaryClassificationEvaluator)
  .setEstimatorParamMaps(paramGrid)
  .setNumFolds(2)  // Use 3+ in practice

其中hashingTF给设置了3个参数、lr给了2个参数，如果正常我们想要验证这6个参数的组合，应该需要验证6次。但是在Spark中，基于Validator可以一次性验证出来，并自动选择最后代价最小的那个。

PS
上面S折交叉验证中S的参数为2，因此内部只有一个训练集；如果是3，那么最终运行的训练次数将会是 （3*2）*2 = 12次。

评估函数的确定

Spark提供了三种评估函数：

RegressionEvaluator用于回归预测的问题
BinaryClassificationEvaluator用于二分类问题
MulticlassClassificationEvaluator用于多分类问题

详细的代码，可以参考：
http://spark.apache.org/docs/latest/ml-tuning.html

posted @ 2018-01-30 15:57 xingoo 阅读(2427) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试？测试工程师会被淘汰吗？

历史上的今天：
2016-01-30 《这样装修最省钱》—— 读后总结

公告

扫码关注公众号，不定期分享大数据和机器学习工作经验与学习心得

昵称： xingoo
园龄： 12年5个月
粉丝： 3983
关注： 79

+加关注

2025年3月

日

一

二

三

四

五

六

xingoo

Spark机器学习——模型选择与参数调优之交叉验证

spark 模型选择与超参调优

模型验证的方法

简单的交叉验证

S折交叉验证

留一交叉验证

超参数的选择

评估函数的确定

公告

最新随笔

积分与排名

随笔分类 (900)

随笔档案 (1028)

常用工具

官方文档

好友链接