(十三)Kriging回归

https://zhuanlan.zhihu.com/p/377620800

一、前言

克里金(Kriging)模型是贝叶斯优化的基础，贝叶斯优化在如今的工程中应用得非常广泛。我自己的研究方向也跟克里金模型有关，最近一直在研究克里金模型是如何推导出来的。

在看文献的过程中，我非常疑惑。因为从文献来看，克里金模型的推导似乎有两种方式，但是两种方式推导出来的结果好像又不完全相同。所以我每次在使用Kriging模型的时候老是觉得不太放心。今天突然看到一篇文章，有详细的推导过程。我又把两种方式仔细看了一遍，终于发现了两者的共同点。另外一点是网上对于高斯回归的推导很多，对于克里金模型的推导却很少，让很多人不太能理解为什么高斯回归是克里金是一个东西，两者从形式上看相似，推导过程却完全不同。所以，今天在这里跟大家一起分享一下。

二、克里金模型的两种形式

形式一[1]：

文献里最常出现的形式：

我们假设有n个数据点，1个预测点。其中

形式二[2]：

DACE是MATLAB里面实现Kriging的工具包，里面的PDF说明了Kriging模型是如何推导过来的。而且提到Kriging的几乎所有文献在具体推导时都会让读者去看1989年的这篇文献。

里面的R与形式一中的C定义相同，是数据点之间的协方差。Y是数据点的目标值。F是数据点的基函数矩阵，f(x)是未知点的基函数矩阵。

[1]Zhan, D., et al. (2017). "Expected Improvement Matrix-Based Infill Criteria for Expensive Multiobjective Optimization." IEEE Transactions on Evolutionary Computation 21(6): 956-975.

[2]Sacks, Jerome, et al. "Design and analysis of computer experiments."Statistical science(1989): 409-423.

三、二者的联系

从形式上来看，两种方式的定义完全不同，看不出来有什么联系。实际上两种形式是有内在联系的。

形式一是形式二在基函数为0次函数(即f(x)=1)时的特例

我们下面给出证明：

我们只考虑预测点为一个点的情况。当基函数是0次函数,f(x)=1时，F=1是n*1的矩阵，f=1是一个标量。

将上面两式带入

综上所述：两种形式的Kriging模型是等价的。形式一是形式二的特例。

四、推导过程

下面我们详细介绍两种形式的推导过程。形式一我们会推导至预测值，方差(MSE)的推导可以从形式二中得出。形式二我们会详细推导如何计算预测值和方差。

形式一：

形式二:

其中的f(x)是回归的模型，可以选择0次，1次，2次多项式，r(x)是相关函数，可以选择高斯核函数，指数核函数等等。

4.1 形式一模型建立

证明：

对于给定的数据集

多维随机过程里面最重要的是它的均值和协方差。我们把均值取为常数

定义了均值和方差，我们就可以写出，Y在我们定义的

这个条件概率可以表示为

为了简化，我们对L取一个对数

有了上面的式子，问题就来了，我们应该如何选取

我们先对

下面问题就变成了对上面的二次矩阵求偏导，为了更加清晰地展示求导过程，我们不妨设

所以

因为C是协方差矩阵，对称矩阵，所以C的逆矩阵也是对称矩阵。

所以使得出现概率最大的

我们再对

把

这个式子里面的C有超参数

4.2 形式一预测

前面的工作中我们利用最大似然概率的方法得到了先验参数

我们把观察到的数据记做

对应的对数似然概率为

现在的问题实际上变成了

求逆是一件很麻烦的事情，下面要做的是如何把中间的逆矩阵表示出来，利用部分求逆的方法，我们可以得到

详细过程为：

把与

所以

得证！

4.3 形式二的推导

4.3.1 问题定义

已知数据输入为

输入和输出都满足(0,1)的高斯分布：

考虑一个线性模型：

其中,p代表基函数的个数,β是基函数的权重。z(x)是一个随机过程。

4.3.2 预测的推导

Kriging的总体想法是希望用已知点函数值的加权求和来表示位置点的函数值。我们先给出如下矩阵的定义，方便推导：

已知点的基函数矩阵

已知点的协方差矩阵

未知点和已知点的协方差矩阵为

我们希望用已知点的函数值来预测未知点的函数值，可以考虑如下的模型：

为了得到合适的系数，我们可以查看它的误差：

其中

有了上述条件，现在我们就可以讨论预测的MSE了：

结合MSE和等式约束，可以构造拉格朗日乘子：

所以可以得到如下方程：

解上述方程，得：

至此，推导中最重要的一步完成了，我们求出了c，就可以预测未知点：

4.3.3 通用形式

这个形式已经将预测模型求出，为了方便编程和理解，我们将进一步简化。将

带入表达式，得：

假设

其中

至此，我们已经推出了Kriging的表达式，任务完成！

4.3.4 重写MSE

将

其中，

得证！

4.3.5 求

我们之前的推导求出了克里金模型的预测和方差表达式，表达式中的

我们的基本假设是目标函数可以用一系列基函数的加权求和得到，即

所以数据点所对应的似然概率是

对数似然概率为

为了求得超参数

对上式求导，得：

所以使得似然概率最大的

我们再对

所以

得证！

与形式一相同，在优化超参数时，使用的法则还是最大似然概率：

4.3.6 DACE包的具体实现

尽管我们已经推导出了克里金模型的公式，在DACE包中的实际实现上时不是直接对上述矩阵求逆，而是加入了cholesky分解与QR分解来减少计算量。为了看懂MATLAB的代码，我们得到对最后的形式做一下变形。

1.求

首先对R做cholesky分解，

取Ft=C\F, Yt=C\Y, [Q,G]=qr(Ft)，得

2.求

3.求似然概率L

对照DACE中dacefit的源代码，可以很好地理解这一节的变换。

4.求预测值和方差的导数

形式二的好处在于将f(x)和r(x)分开了，因此预测值的导数很好求得：

这里的

同样，方差的导数同样是对x求导，得：

以上就是预测值与方差的导函数了。在DACE的具体实现中，仍然采用了QR分解等操作。

最后我们就介绍一下DACE中是如何减少

DACE只有在预测点数为1的时候才会给出方差的导数，此时G是一个数字，所以

又因为

所以Gv可以重新写为

得证！

posted @ 2022-11-27 22:56 jasonzhangxianrong 阅读(836) 评论(0) 编辑收藏举报

刷新页面返回顶部