CRPS:贝叶斯机器学习模型的评分函数

连续分级概率评分(Continuous Ranked Probability Score, CRPS)或“连续概率排位分数”是一个函数或统计量,可以将分布预测与真实值进行比较。

机器学习工作流程的一个重要部分是模型评估。这个过程本身可以被认为是常识:将数据分成训练集和测试集,在训练集上训练模型,并使用评分函数评估其在测试集上的性能。

评分函数(或度量)是将真实值及其预测映射到一个单一且可比较的值 [1]。例如,对于连续预测可以使用 RMSE、MAE、MAPE 或 R 平方等评分函数。如果预测不是逐点估计,而是分布呢?

在贝叶斯机器学习中,预测通常不是逐点估计,而是值的分布。例如预测可以是分布的估计参数,或者在非参数情况下,来自MCMC方法的样本数组。

在这种情况下,传统的评分函数不适合统计设计;预测的分布聚合成它们的平均值或中值会导致关于预测分布的分散和形状的大量信息的损失。

CRPS

连续分级概率评分(CRPS)是一个分数函数,它将单个真实值与累积分布函数(CDF)进行比较:

它于 70 年代首次引入 [4],主要用于天气预报,现在在文献和行业中重新受到关注 [1] [6]。当目标变量是连续的并且模型预测目标的分布时,它可以用作评估模型性能的指标;示例包括贝叶斯回归或贝叶斯时间序列模型 [5]。

通过使用CDF, CRPS 对于参数和非参数预测都很有用:对于许多分布,CRPS [3] 都有一个解析表达式,对于非参数预测, CRPS 使用经验累积分布函数 (eCDF)。

完整文章:

https://avoid.overfit.cn/post/302f7305a414449a9eb2cfa628d15853

posted @ 2023-01-31 10:56  deephub  阅读(219)  评论(0编辑  收藏  举报