多任务优化

针对昂贵优化问题的小说多任务条件神经网络代理模型

罗建平(Jianping Luo®), IEEE会员, 陈亮, 李霞, 张清夫, IEEE会士

摘要 - 通过在任务间共享信息来同时学习多个相关任务,避免“从无开始”的学习,并在没有转移的情况下提高性能(即,当每个任务独立学习时)。本研究探讨了具有条件神经过程(CNP)网络的多任务学习,并基于CNP提出了两个多任务学习网络模型,即一对多多任务CNP(OMc-MTCNP)和多对多MTCNP(MMc-MTCNP)。与现有的多任务模型相比,所提出的模型添加了可扩展的相关学习层,用于学习任务之间的相关性。此外,所提出的多任务CNP(MTCNP)网络被视为代理模型,并应用于贝叶斯优化框架中,以取代高斯过程(GP),以避免复杂的协方差计算。所提出的贝叶斯优化框架通过利用任务之间可能的依赖关系来共享跨任务知识,同时推断多个任务。所提出的代理模型通过将观察数据集与一些相关任务添加以确信地估计模型参数。在多种情景下进行的实验研究表明,与基于GP、单任务和其他多任务模型的贝叶斯优化方法相比,所提出的算法在性能上具有竞争力。

关键词 - 进化优化、高斯过程(GP)、多任务学习、神经网络、代理模型。

一、引言

在复杂且昂贵的优化问题中,目标函数评估成本很高,无法承担大量的函数评估。贝叶斯优化算法(BOAs)[1]是一种常用的昂贵优化方法,它使用概率模型来模拟未评估解的目标函数值的分布[2]-[13]。然后,BOA定义了一种衡量评估新解的价值的获取函数。通常,BOA使用具有最大获取值的新解进行评估。良好设计的获取函数可以以原则性方式平衡利用和探索。常用的获取函数包括改进的概率[14]、期望改进(EI)[15]、汤普森采样[16]和高斯过程(GP)上限置信界[17]。

在许多应用中,存在一组相关的昂贵优化问题。以协作方式解决这些问题比一个接一个地解决它们而不探索它们之间的关系更有效。我们注意到在BOAs方面很少有这样的努力。在本文中,借鉴多任务学习的思想,我们提出了一种基于多任务网络的用于处理一组昂贵优化问题的BOA。

可以说,GP [28],[39]是BOAs中最常用的代理模型。然而,在GPs中计算协方差矩阵的高复杂度是一个问题,因为数据集或维度增加时,其复杂度会呈立方增长。此外,需要一个额外的过程来确定最适合的核函数和超参数。最近,条件神经过程(CNP)模型[40]被提出。CNP结合了GP和神经网络的优点。与GPs类似,CNP可以使用少量数据点进行相对准确的预测,并测量其预测的不确定性,而且它们可以很好地适应复杂函数和大型数据集。此外,CNP无需确定核函数和超参数。CNP的计算复杂性比GPs低得多。基于这些原因,我们在研究中使用CNP,提出了一个基于MTCNP的BOA框架。在这种方法中,将每个问题视为一个任务,并为每个任务构建一个独立的CNP网络。所有任务的多个CNP网络通过可扩展的相关学习层相连接。该层中的参数表示任务之间的相关性。基于MTCNP的模型提高了利用相对较小的初始数据学习当前观察内容的能力。通过使用相关学习层,有益的知识可以在任务之间传递或共享,从而通过重用它们的相似性来提高性能,使多个相关任务能够同时进行。


收稿日期:2019年10月20日;修订日期:2020年3月9日和2020年5月24日;接受日期:2020年7月26日。发表日期:2020年9月3日;当前版本日期:2022年5月19日。本工作部分受中国广东自然科学基金(Grant 2018A030313070)、国家科技部国家重点研发计划(Grant 2018AAA0101301)和中国自然科学基金(Grant 61871273)资助。这篇文章由副编辑推荐。

罗建平和陈亮隶属于深圳大学智能信息处理广东省重点实验室,中国深圳市518060,同时也隶属于深圳大学电子与信息工程学院媒体安全深圳市重点实验室,中国深圳市518060(电子邮件:ljp@szu.edu.cn)。

李霞隶属于深圳大学电子与信息工程学院高级通信与信息处理深圳市重点实验室,中国深圳市518060(电子邮件:lixia@szu.edu.cn)。

张清夫隶属于香港城市大学计算机科学系,中国香港,同时也隶属于香港城市大学深圳研究院,中国深圳市518057(电子邮件:qingfu.zhang@cityu.edu.hk)。

本文由作者提供了补充资料和一份或多份图的彩色版本,可从https://doi.org/10.1109/TCYB.2020.3014126获取。

数字对象标识符(DOI)10.1109/TCYB.2020.3014126


我们工作的主要贡献如下。

  1. 我们提出了一种基于多任务CNP(MTCNP)的贝叶斯优化框架,其中将高斯过程替换为条件神经过程网络作为代理模型,用于有效解决一组相关的优化问题。据我们所知,这是第一个基于CNP网络的多任务模型。

  2. 我们提出使用相关层来学习不同问题之间的相关性。该层能够更好地学习不同复杂问题之间的非线性相关性。

  3. 基于提出的一对多MTCNP(OMc-MTCNP)模型,我们提出了多对多MTCNP(MMc-MTCNP)模型,可以有效减少评估和计算成本所需的数据点数量。我们为MMc-MTCNP开发了不同的训练方法。

  4. 在多种场景上进行的实验研究表明,我们提出的算法与基于高斯过程、单任务以及其他多任务模型的贝叶斯优化方法相比表现良好。

本文其余部分组织如下。第二部分讨论相关技术,包括BOAs、高斯过程、CNP网络和多任务学习。第三部分介绍了提出的多任务代理模型及其在BOA框架中的应用。第四部分呈现了实验研究。第五部分总结本文并提供可能的未来工作。

II. 相关工作

A. BOA

BOA是成功的昂贵优化方法[41]。这些方法是为了使用少量函数评估来找到黑匣子函数 \(f\) 的全局极大值或极小值。BOA使用已经评估的函数值来构建目标函数的后验分布模型 [45],[46]。有了模型,可以获取每个点的目标值的分布,并用于构建获取函数。BOA评估获取函数的最大点处的目标函数。然后,可以使用新评估的函数值来更新模型。BOA已经在各个领域中被使用,比如机器人控制系统 [42],医学实验 [43],以及神经网络超参数调整 [39]。通用BOA的伪代码如算法1所示,其中 \(\psi\) 是获取函数。

B.GP用于贝叶斯优化的代理模型

在高斯过程建模中,函数值 \(f\left( x\right)\) 的分布被建模为高斯分布。在维度为 \({R}^{d}\) 的两个点 \({x}_{i}\)\({x}_{j}\) 处的函数值之间常用的相关函数是 \(k\left( {{x}_{i},{x}_{j}}\right) = \exp \left( {-\mathop{\sum }\limits_{{k = 1}}^{d}{\theta }_{d}{\left| {x}_{i}^{k} - {x}_{j}^{k}\right| }^{2}}\right)\) [44],其中 \({x}_{i} = \left( {{x}_{i}^{1},\ldots ,{x}_{i}^{d}}\right) .\)

算法1 贝叶斯优化

1:为目标函数\(f\left( x\right)\)建立概率模型:
从搜索空间\(X\)中选择\(n\)个点并评估它们的函数值,形成初始数据库\(\mathcal{D}\)。利用\(D\)建立概率模型和收获函数
\(\psi \left( x\right)\)
对于\(i = 1,2,\ldots ,I\)
3:最大化收获函数以找到新的测试点:\({x}^{ * } = {\operatorname{argmax}}_{x \in X}\psi \left( x\right)\)
4:评估目标函数\(f\)\({x}^{ * }\)处的值:\({y}^{ * } = f\left( {x}^{ * }\right)\)
5:将新评估数据添加到\(\mathcal{D}\)\(\mathcal{D} \mathrel{\text{:=}} \left\{ {\mathcal{D},\left( {{x}^{ * },{y}^{ * }}\right) }\right\}\)
6:使用\(D\)更新概率模型和收获函数\(\psi \left( x\right)\)
结束循环。
8:输出找到的最佳解决方案。


\({X}_{n} = \left\{ {x}_{1 : n}\right\}\)\({R}^{d}\)中的\(n\)个点,它们的函数值为\({Y}_{n} = \left\{ {y}_{1 : n}\right\} = \left\{ {f\left( {x}_{1 : n}\right) }\right\}\)。则,核矩阵为

\[K = \left( \begin{matrix} k\left( {{x}_{1},{x}_{1}}\right) & \ldots & k\left( {{x}_{1},{x}_{n}}\right) \\ \vdots & \ddots & \vdots \\ k\left( {{x}_{n},{x}_{1}}\right) & \cdots & k\left( {{x}_{n},{x}_{n}}\right) \end{matrix}\right) \tag{1} \]

对于\(f\left( {x}_{n + 1}\right)\)的预测分布的均值和方差为

\[P\left( {f\left( {x}_{n + 1}\right) \mid {X}_{n},{Y}_{n}}\right) \sim \mathcal{N}\left( {{\sum }^{T}{K}^{-1}{Y}_{n},{\sigma }_{n + 1} - {\sum }^{T}{K}^{-1}\sum }\right) \tag{2} \]

\[{\sigma }_{n + 1} = k\left( {{x}_{n + 1},{x}_{n + 1}}\right) \tag{3} \]

\[\sum = \left\lbrack {k\left( {{x}_{n + 1},{x}_{1}}\right) ,\;k\left( {{x}_{n + 1},{x}_{2}}\right) ,\ldots ,k\left( {{x}_{n + 1},{x}_{n}}\right) }\right\rbrack \tag{4} \]

其中\({\sum }^{T}{K}^{-1}{Y}_{n}\)是预测均值。预测均值和方差使得高斯过程适用于顺序决策制定中的Bayesian优化算法。

C.EI 收获函数

Bayesian 优化算法通过最大化收获函数 [15]-[17] 来迭代地生成函数评估的候选点。在本研究中,我们使用 EI 函数 [15] 作为收获函数,它能平衡开发和探索。对于一个新的点 \(x\), 记 \(\bar{f}\left( x\right)\)\({\sigma }^{2}\left( x\right)\) 分别为 \(f\left( x\right)\) 的均值和方差,\({f}^{\min }\) 为所有评估的函数值的最小值。\(\mathrm{{EI}}\left( x\right)\) 被定义为

\[\mathrm{{EI}}\left( x\right) = E\left( {\max \left\{ {{f}^{\min } - f\left( x\right) + \xi ,0}\right\} }\right) \tag{5} \]

\[Z = \frac{\bar{f}\left( x\right) - {f}^{\min } - \xi }{\sigma \left( x\right) }. \tag{6} \]

Lizotte [15] 建议设定 \(\xi \geq 0\)\(\xi = {0.01}\) 在大多数情况下能很好地发挥作用。

D. 多任务学习

在优化过程中,经常会遇到问题,例如小数据集、强嘈杂和高维度。多任务学习有效地增加训练示例,并使模型能够消除干扰,以有效地学习相关任务的基本内容 [18]。由于不同类型的噪声,训练中的泛化性能可以得到改善。此外,每个任务还可以学习不同的特征,因为通过多任务模型,采样数据集的特性和其他任务可以获取额外的特征。多任务学习已成功应用于不同场景 [19]-[24]。方法,比如低秩方法 [25];任务聚类方法 [26], [27];任务相关学习方法 [28];Dirty 方法 [29];以及多级方法 [30],使用模型参数来关联不同任务的学习。其他方法,如特征转换方法 [31], [32];特征选择方法 [33], [34];以及深度学习方法 [35], [36],将每个任务的特征以线性或非线性方式转移到其他任务。在 [18] 和 [21] 中,提出了共享底部多任务结构。在这些结构中,所有任务共享底部结构以实现多任务之间的信息共享的目的。

有几个模型与本研究中提出的多任务模型类似。目前多任务学习方法常用的框架可以总结为

\[\mathop{\min }\limits_{W}\mathop{\sum }\limits_{i}\operatorname{Loss}\left( {W,{X}^{i},{Y}^{i}}\right) + \lambda \operatorname{Reg}\left( W\right) \]

其中 \(\lambda \operatorname{Reg}\left( W\right)\) 是为任务施加各种类型关系 [19], [54], [55]。该方法不改变每个任务的网络结构,只使用损失函数将多个任务的输出绑定在一起,这与我们的网络不同。在 [37] 中,一些交叉缝单元被应用于找到最佳的共享表示以进行多任务学习。共享表示是用线性组合建模,然后为给定的任务集学习最佳线性组合。 与此不同,我们的相关层不仅仅局限于线性组合。我们的相关层还可以学习任务的非线性相关性。此外,在 [37] 中使用的基于交叉缝的网络的训练方法与我们提出的多任务模型 MMc-MTCNP 不同。同样,在 [38] 中,对于每个任务,使用门控网络将专家网络底部和顶部的个体网络 "塔" 连接起来,以捕获与专家网络中任务相关的信息。模型中的专家网络不对应于特定任务,专家网络和任务的数量可能不相同。因此,门控网络并不直接表示任务之间的相关性。 此外,门控网络的效果也取决于塔网络和专家网络的设计以及专家网络的数量(超参数),这与我们的模型也是不同的。在本研究中,我们提出了通过相关层连接多个 CNPs 的多任务学习网络,其中每个 CNP 对应一个任务。此外,相关层不仅包含连接的线性组合,还可以扩展,因此可以更好地处理任务之间的非线性相关性问题。

E. \({CNPs}\)

深度神经网络在拟合函数方面表现出色。CNP [40] 结合了随机过程和神经网络的特征。CNP学习已知观察结果的过程由神经网络参数化。此外,CNP通过随机抽样数据集并遵循梯度下降算法进行训练,以最大化条件概率。CNP的优势在于可以通过神经网络从数据中获取分布信息。

图 1. CNP。

设有 \(n\) 组不同的输入数据集。\(X = {\left\{ \left( {x}_{i}\right) \right\} }_{i = 1}^{i = n}\) 和一个未知表达式 \(X\) 的函数 \(f : X \rightarrow Y\) 被输入到函数 \(f\) 中以获取输出 \(Y = {\left\{ \left( {y}_{i}\right) \right\} }_{i = 1}^{i = n},{y}_{i} = f\left( {x}_{i}\right)\) 。如图1所示,CNP由编码器 \(h\) 和解码器 \(g\) 两部分组成,均由神经网络构成。\(h\) 的目的是学习数据之间的映射关系,即参数化条件概率。\(g\) 的作用是利用所学信息预测未知点的值,即计算条件概率。该过程类似于拟合函数 \(p : X \rightarrow Y\)\(g\) 是使 \(f\)\(p\) 尽可能接近。需要注意此过程与 VAE [48] 不同,后者中拟合过程通过潜变量表示集合的分布。

给定 \(m\) 个未观测点的集合 \(T = {\left\{ {x}_{i}\right\} }_{i = n + 1}^{m + n + 1}\)。CNP在观测 \(O = {\left\{ \left( {x}_{i},{y}_{i}\right) \right\} }_{1}^{n}\) 上参数化 \(f\left( {T \mid O,T}\right)\) 。通过放弃先验分布的假设,以实现功能灵活性和可扩展性,模型直接计算条件随机过程。假设 \({Q}_{\theta }\) 是随机变量 \(f\left( x\right), x \in T\) 的分布,其中 \(\theta\) 是定义 \({Q}_{\theta }\) 的所有参数的集合,使得 \({Q}_{\theta }\left( {f\left( T\right) \mid O,T}\right) = \mathop{\prod }\limits_{{x \in T}}{Q}_{\theta }\left( {f\left( T\right) \mid O,x}\right)\),即 \({Q}_{\theta }\) 可以被分解,并针对每个输入 \(x\) 执行单独的条件分布计算。整个过程等同于以下结构:

\[{r}_{i} = {h}_{\theta }\left( {{x}_{i},{y}_{i}}\right) \;\forall \left( {{x}_{i},{y}_{i}}\right) \in O \tag{7} \]

\[r = {r}_{1} \oplus {r}_{2} \oplus \cdots \oplus {r}_{n - 1} \oplus {r}_{n} \tag{8} \]

\[{\varphi }_{i} = {g}_{\theta }\left( {{x}_{i},r}\right) \;\forall \left\{ {x}_{i}\right\} \in T \tag{9} \]

其中 \({h}_{\theta} : X \times Y \rightarrow {R}^{d}\)\({g}_{\theta} : X \times {R}^{d} \rightarrow {R}^{e}\) 是神经网络,编码器 \(h\) 学习所有输入和输出的对应信息,参数 \({\varphi}_{i}\) 用于对 \({Q}_{\theta}\left( {f\left( {x}_{i}\right) \mid O,{x}_{i}}\right) = Q\left( {f\left( {x}_{i}\right) \mid O,{\varphi}_{i}}\right)\) 进行参数化,表示高斯分布 \(\mathcal{N}\left( {{\mu}_{i},{\sigma}_{i}^{2}}\right)\) 的均值和方差 \({\varphi}_{i} = \left( {{\mu}_{i},{\sigma}_{i}^{2}}\right)\),符号 \(\oplus\) 将所有学习到的信息整合并映射到单个元素,解码器 \(g\) 使用此信息预测点的均值和方差。\(\oplus\) 可用于表示加权平均。因此,该方程等同于 \(r = \mathop{\sum}\limits_{{i = 1}}^{n}{r}_{i}/n\)。因此,对经过训练的 CNP 进行推理对应于神经网络中的前向传播,其与 GP 的 \(\mathcal{O}\left( {n + m}\right)\) 相比,具有更高的可扩展性和灵活性。

MTCNPs
输入:每个点的维数\(d\)
评估点的数量\(n\)(通常为\(n = {11} \times \left( {d - 1}\right) )\)
相关任务的数量\(M\)
最大迭代次数\(I\)
\(l\)个任务的目标函数\({f}_{l}\)
输出:所有任务的最佳解\({\left\{ {x}_{l}^{\text{best }}\right\} }_{l = 1}^{M}\) .
1: 生成均匀分布集合:
\({\left\{ {X}_{l}\right\} }_{l = 1}^{l = M} \leftarrow {\left\{ {\left\{ {x}_{l,i} \in {\mathbb{R}}^{d}\right\} }_{i = 1}^{i = n}\right\} }_{l = 1}^{l = M}.\)
2: 生成初始值:
\({\left\{ {Y}_{l}\right\} }_{l = 1}^{l = M} = {\left\{ {\left\{ {y}_{l,i} \leftarrow {f}_{l}\left( {x}_{l,i}\right) \right\} }_{i = 1}^{n}\right\} }_{l = 1}^{M}\) ,并设置:
\({O}_{ln} \leftarrow \left\{ {{X}_{l},{Y}_{l}}\right\}\)
3: 对于\(j = 1,2,\ldots ,I\) 执行
4: 设定\({\left\{ {O}_{l,N}\right\} }_{l = 1}^{M} = {\left\{ {\left\{ \left( {x}_{l,i},{y}_{l,i}\right) \right\} }_{i = 1}^{N}\right\} }_{l = 1}^{M} \subset {\left\{ {O}_{l,n}\right\} }_{l = 1}^{M}\)
其中\(N \sim\) 均匀分布\(\left\lbrack {1,\ldots ,n}\right\rbrack\) .
5: 使用\({\left\{ {O}_{l,n}\right\} }_{l = 1}^{M}\)\({\left\{ {O}_{l,N}\right\} }_{l = 1}^{M}\) 训练网络
以获得MTCNPs模型。
6: 使用粒子群优化器(PSO)寻找
所有任务的最有潜力解\({\left\{ {\widehat{x}}_{l}^{ * }\right\} }_{l = 1}^{M} \leftarrow\)
\(\operatorname{PSO}\left( {-\operatorname{EI}\left( {x,{\bar{f}}_{l = 1 : M}\left( x\right) ,{\sigma }_{l = 1 : M}\left( x\right) }\right) }\right)\) ,其中模型被用于预测均值\({\bar{f}}_{l = 1 : M}\left( x\right)\) 和方差
\({\sigma }_{l = 1 : M}\left( x\right)\)
7: 评估所有任务的实际函数值\({\left\{ {\widehat{y}}_{l}\right\} }_{l = 1}^{M} = {\left\{ {f}_{l}\left( {\widehat{x}}_{l}^{ * }\right) \right\} }_{l = 1}^{M}\)
8: 增广\({\left\{ {O}_{l,\left( {n + M}\right) }\right\} }_{l = 1}^{M} = {\left\{ {O}_{l,n},\left\{ \left( {\widehat{x}}_{l}^{ * },{\widehat{y}}_{l}\right) \right\} \right\} }_{l = 1}^{M}\)
\(n = n + M\)
9: 结束循环
10: 返回最佳结果:
\({\left\{ {x}_{l}^{\text{best }}\right\} }_{l = 1}^{l = M} \leftarrow {\operatorname{argmin}}_{{x}_{l,i}}\left( {{\left\{ {y}_{l,i}\right\} }_{l = 1}^{l = M},1 \leq i \leq n + {IM}}\right) .\)


CNP 随机选择子集 \({O}_{N} = {\left\{ \left( {x}_{i},{y}_{i}\right) \right\} }_{i = 1}^{N} \subset O\) ,其中 \(N \sim\) 均匀分布 \([1,\ldots,n]\)。编码器 \(h\) 通过 \({O}_{N}\) 进行训练,\({Q}_{\theta}\) 通过要求其预测 \(O\) 进行训练。如果学习了 \(O\),则可能出现过拟合问题。然后,负条件对数概率 \(L(\theta) = -{E}_{N}[{\log {Q}_{\theta}({{\left\{ {y}_{i}\right\} }_{i = 1}^{n} \mid {O}_{N},{\left\{ {x}_{i}\right\} }_{i = 1}^{n}})}]\) 被最小化以训练 CNP。

III. 提议的模型

A. 框架

我们在方法中结合了多个相关任务来同时解决问题,并对任务之间的相关性程度进行建模。在 MTCNPs 方面,我们提出的模型旨在通过特定的网络结构和损失函数学习任务之间的相关性,其中每一层将学到的信息传播到整个网络中。随着数据量的增加,任务之间的相关性会实时更新。

我们将 MTCNPs 应用于贝叶斯优化框架。如算法 2 所示,MTCNP 网络是用观测 \({O}_{n}\) 进行训练的,即 MTCNPs 的替代模型的内部参数会被更新。训练后的模型可以为新的输入 \(x\) 生成目标函数的均值和方差的估计。接下来,我们采用改进的 PSO 算法。在 PSO 中,我们将 EI 获取函数的输出设置为第 \(l\) 个任务的适应函数,以找到最具潜力的点 \({x}_{l}^{*}\)。最后,将 \({\left\{ {x}_{l}^{*}\right\} }_{l = 1}^{l = M}\) 添加到观测中。迭代地,模型将从中产生一个高质量的观测集,我们从中获得最优的 \({\left\{ {x}_{l}^{\text{best}}\right\} }_{l = 1}^{l = M}\)。我们在 MTCNPs 中提供了两种实现方式;因此,这些实现方式之间存在一些差异,稍后将加以解释。

图 2. MTCNPs。 (a) OMc-MTCNPs。 (b) MMc-MTCNPs

B. MTCNPs

CNPs 通过参数化具有强大表示和学习能力的神经网络来替代函数上的条件分布。因此,不需要关注数据的先前分布类型,而是需要关注设计良好的网络结构和特殊的损失函数。我们通过将多任务学习和 CNPs 结合设计了 MTCNPs。本研究提出的 MTCNPs 通过相关性学习层内部化任务相关性。有益的信息可以通过此相关性层在任务之间传递或共享。此外,每个任务使用由相关任务的训练信号所拥有的领域特定信息作为增强每个任务泛化性能的归纳偏差。此外,信息共享扩大了数据量,以提高模型训练的准确性,因为任务之间存在关联。

在本研究中,我们提出了两种 MTCNP 模型:1) OMc-MTCNP,如图 2(a) 所示,2) MMc-MTCNP,如图 2(b) 所示。请注意,相关性层 \(k\) 并不限于线性连接。它可以扩展,例如,可以添加具有激活函数的全连接层(请参阅 IV-D 节)。为了便于说明,仅绘制了一个线性连接层,并且以下内容相同。在 OMc-MTCNP 中,每个任务都对相同的 \(X\) 进行采样,并且对于每个任务 \({\left\{ {Y}_{l}\right\} }_{l = 1}^{M}\)\(X\) 的响应应该评估(通过真实的适应函数进行计算)。我们称这种训练为 OMc。相应地,在 MMc-MTCNP 中,第 \(l\) 个任务对 \({X}_{l}\) 进行不同的采样,且彼此独立,并且 \({X}_{l}\) 的响应仅属于每个任务 \({Y}_{l}\)。我们称这种训练为 MMc。

如图 2 所示,每个 CNP 都用于不同的任务。我们将多个 CNP 模型组合在输出层和相关网络层 \(k\) 中一起,以获得每个 CNP 的最终输出。网络层 \(k\) 通过更新参数学习任务之间的相关性度量,并将相关信息组合起来,以将每个任务的结果映射为最终结果。换句话说,每个任务的最终输出与其他任务相关。然后,我们使用反向传播算法将学到的信息分布到每个 CNP 的权重中。MTCNPs 利用从相关任务中学到的经验通过相关性层 \(k\) 将信息传播到其他网络中。在本研究中,我们使用 Adam [49] 作为优化器来训练模型。由于多任务模型的特性,总观测点增加了 \(M\) 个,每个任务可以使用来自其他任务共享的信息,避免从头开始学习。相关性层 \(k\) 通过更新网络集成这些处理相关任务经验。

C. OMc-MTCNP

如图2(a)所示,OMc-MTCNP中每个任务的训练数据采样点相同。 我们设置\(X = {X}_{1} = {X}_{2} = \cdots = {X}_{M}\) 。 这种设置的好处在于利用了数据先验知识。 在每次训练会话中,我们适当调整比例\(\sigma ,\sigma \in (0,1\rbrack\) ,控制编码器\(h\)从训练数据\({O}_{l}\)中获取的训练数据。 因此,当数据量增加时,模型可以防止过度拟合并充分学习数据。 此外,模型对决策空间\(X\)的不确定性也可以得到保证。 我们重复随机选择\({O}_{l}\)的适当子集并改善模型的泛化以确保随机性。 我们设置\({O}_{l}^{\sigma n} = {\left\{ \left( {x}_{l,j},{y}_{l,j}\right) \right\} }_{j = 1}^{j = {\sigma n}} \subset {O}_{l}\) 。 对于第\(l\)个任务,负条件对数概率定义为

\[{L}_{l}\left( \theta \right) = - {E}_{\sigma n}\left\lbrack {\log {Q}_{l\theta }\left( {{\left\{ {y}_{l,j}\right\} }_{j = 1}^{j = n} \mid {O}_{l}^{\sigma n},{\left\{ {x}_{i}\right\} }_{i = 1}^{n}}\right) }\right\rbrack . \tag{10} \]

因此,我们可以最小化负条件对数概率

\[L\left( \theta \right) = - \mathop{\sum }\limits_{{l = 1}}^{M}{c}_{l}\left\lbrack {{E}_{\sigma n}\left\lbrack {\log {Q}_{l\theta }\left( {{\left\{ {y}_{l,j}\right\} }_{j = 1}^{j = n} \mid {O}_{l}^{\sigma n},{\left\{ {x}_{i}\right\} }_{i = 1}^{n}}\right) }\right\rbrack }\right\rbrack \tag{11} \]

其中\({c}_{l}\)是第\(l\)个任务的损失函数的权重。为了平衡每个任务的权重,我们在本研究中将权重\({c}_{l}\)设置为1。

如图3所示,我们同时训练多任务模型的每个CNP与相应的训练数据集。 每个CNP模型可以独立于其他任务学习数据集的特征。 在指定的损失函数下,我们将所有任务合并为整体进行训练。 每个CNP模型的参数被更新,并且不同任务的信息被分配到每个CNP模型的参数。 与此同时,相关网络层\(k\)中的参数被更新,并趋向于表示任务的相关性。 虚线部分的参数需要在每次训练中更新。

图3. OMc-MTCNP中的训练(更新虚线相关参数)。

图4. OMc-MTCNP中数据增强策略。

图5. MMc-MTCNP中的数据增强策略。

在预测过程中,当将新点 \({x}_{ * }\) 输入到OMc-MTCNP模型中的所有任务中时,我们的模型可以预测第\(l\)个任务的均值 \({m}_{l}\) 和方差 \({v}_{l}\)。如算法2的第6步所示,PSO用于基于EI获取函数搜索最佳的 \({x}_{ * }^{l}\) 值。在通过PSO有序地获得所有任务的最佳点集 \({\left\{ {x}_{ * }^{l}\right\} }_{l = 1}^{l = M}\),如图4所示,\(M\)个点 \({\left\{ {x}_{ * }^{l}\right\} }_{l = 1}^{l = M}\) 被添加到 \(X\) ,并且每个任务对这些点进行真实昂贵的评估。例如,第一个任务评估这些点以得到 \(M\) 个值 \({\left\{ {f}_{1}\left( {x}_{ * }^{l}\right) \right\} }_{l = 1}^{l = M}\)。最终,\(M\)\({\left\{ \left( {x}_{ * }^{l},{f}_{1}\left( {x}_{ * }^{l}\right) \right) \right\} }_{l = 1}^{l = M}\) 被添加到第一个任务的观察结果 \({O}_{1}\)。因此,对于每次迭代,我们需要执行 \({M}^{2}\) 次真实昂贵的评估。

D. MMc-MTCNPs

OMc-MTCNP的一个缺点是样本点 \({\left\{ {X}_{l}\right\} }_{l = 1}^{M}\) 对所有任务都是相同的。对于OMc-MTCNP的每次迭代,我们获得 \(M\) 个潜在点。这个过程将真实函数评估数量增加到 \({M}^{2}\) 。此外,这个过程增加了成本和时间,我们以相同数量的评估获得的输入数据比单个任务少。在这项研究中,我们提出了另一个网络,即MMc-MTCNP,以减少评估数量并改善训练数据的多样性。

图 6. \({C1}\) 中的训练(仅更新虚线相关参数)。

如图2(b)所示,MMc-MTCNP中的 \({\left\{ {X}_{l}\right\} }_{l = 1}^{M}\) 在各个任务中是不同的,并且对于每个任务都是独立的,即 \({X}_{1} \neq {X}_{2} \neq \cdots \neq {X}_{M}\)。如图5所示,当通过PSO搜索得到 \(\left\{ {x}_{ * }^{l}\right\}\) 时,点 \({x}_{ * }^{l}\) 仅添加到相应的 \({X}_{l}\) 中,并且仅由第\(l\)个任务评估(而不是所有任务)以获得值 \({f}_{l}\left( {x}_{ * }^{l}\right)\)。因此,对于每次迭代,需要执行 \(M\) 次真实评估。我们提出了两种MMc-MTCNP的训练机制,即 \({C1}\)\({C2}\)。与OMc-MTCNP相反,在每次迭代中我们不同时训练所有数据集,并且在(10)中定义的损失函数不是所有任务的总和。对应这两种训练方法的讨论如下。

  1. MMc-MTCNP的训练模式 1(C1):在每次迭代中,所有数据集 \({\left\{ {O}_{l}\right\} }_{l = 1}^{M}\) 需要依次进行训练。第\(l\)个观察 \({O}_{l}\) 被假定仅与第\(l\)个任务相关。因此,我们只更新第\(l\)个任务的参数以及与第\(l\)个任务输出相关的\(k\)的参数。如图6所示,我们展示了模型通过 \({O}_{1}\) 进行训练,即任务1的训练数据 \(\left( {{X}_{1},{Y}_{1}}\right)\)。在这种情况下,仅更新虚线中的参数,即 \({\mathrm{{CNP}}}_{{S}_{1}}\) 的参数和连接到任务1的第\(k\)层的相关系数。接下来,模型通过任务2的训练数据 \(\left( {{X}_{2},{Y}_{2}}\right)\) 进行训练。然后,更新第\({\mathrm{{CNP}}}_{{S}_{2}}\) 的参数以及连接到任务2的相关系数。当所有 \({O}_{l}\) 都训练完毕后,模型中的每个CNP的参数将被更新以学习各自数据的特征。此外,由所有相关系数组成的第\(k\)层可以表示任务之间的相关性。在预测阶段,我们将相同的点 \({x}_{ * }\) 输入到每个任务中,\({m}_{l}\)\({v}_{l}\) 是模型中第\(l\)个任务的最终输出。我们使用PSO通过使用这些输出找到第\(l\)个任务的下一个评估点。

  2. MMc-MTCNP的训练模式 2(C2):在每次迭代中,所有数据集 \({\left\{ {O}_{l}\right\} }_{l = 1}^{M}\) 需要依次进行训练。与 \({C1}\) 模式相反,对于训练数据 \(\left( {{X}_{i},{Y}_{i}}\right)\) ,所有任务的CNP参数以及与第\(l\)个任务输出相关的\(k\)的参数都会更新。图7展示了模型通过 \({O}_{1}\) 进行训练时需要更新的输入和虚线中的参数。当所有数据集 \({\left\{ {O}_{l}\right\} }_{l = 1}^{M}\) 都训练完毕后,每个任务的信息不再由单个CNP表示,而是由所有CNP的参数表示。相关的第\(k\)层能够有效提取所有CNP的优势以对最终输出产生贡献。预测阶段设置与 \({C1}\) 模式相同。

图 7. \({C2}\) 中的训练(仅更新虚线相关参数)。

这些培训模式之间的主要区别在于 CNP 更新。就不同任务的训练数据而言,方法 \({C1}\) 仅会更新相应任务的 CNP 参数,而方法 \({C2}\) 则会更新所有 CNP 的所有参数。在这两种培训方法 \(\left( {C1}\right.\)\({C2}\) )中,如果任务数量是 \(M\),那么一个迭代的评估次数也是 \(M\)。本研究提出的不同 MTCNP 的架构细节在表 I 中展示。

与传统的多任务学习网络相比,提出的网络添加了一个相关性层 \(k\)。多任务之间的相关性可以通过这个层进一步表示。此外,相关性网络层 \(k\) 是可扩展的。如果面对复杂问题,可以更改层的类型或数量。例如,我们可以通过添加具有额外节点和激活函数的隐藏层来扩展相关性层,以表示任务之间的相似性/相关性。

IV. 实验和讨论

我们使用 2、3 和 4 维(D)函数优化基准问题来模拟昂贵的优化问题。此外,我们还处理实验中的超参数调整问题。对于函数优化问题,任务之间的相关性包括线性和非线性情况。

A. 基线

我们将提出的 MTCNP 模型与 BOA 框架中的几种其他模型或方法进行比较。

GP 模型:在 BOA 框架中,代理模型基于单个 GP。

CNP 模型:在 BOA 框架中,代理模型基于单个 CNP。

RMLA 方法:我们使用了正则多任务学习模型 (RMLA) [54] 评估 BOAs,该模型假设所有任务的模型参数彼此接近。通过移除相关层并向损失函数中添加正则化惩罚项,OMc-MTCNP 模型在本研究中变为 RMLA 模型。

基于 Cross-Stitch [37] 的方法:这种方法通过使用由固定大小可训练矩阵组成的“Cross-Stitch” 单元在两个任务之间共享信息。Cross-Stitch 单元汇总每个任务的输入,并通过线性变换产生相应任务的输出。当 OMc-MTCNP 的相关性层由 Cross-Stitch 单元替换时,OMc-MTCNP 模型在我们的实验中变为基于 Cross-Stitch 的模型。

表 I

不同 MTCNP 网络的架构细节

OMc-MTCNPsMMc-MTCNPs
C1C2
训练过程(Mtasks)同时训练多任务模型的每个CNP与相应的训练数据集。更新所有CNP的参数和相关层网络。对于第$l$个任务,更新所有CNP的参数以及与第$l$个任务输出相关的相关层的参数。对于第$l$个任务,更新第$l$个任务的CNP参数以及与第$l$个任务输出相关的相关层的参数。
评估点(样本点)所有任务具有相同的评估点。每个任务的评估点不同。
每次迭代增加训练集数据的策略添加$M$个点 ${\left\{ {x}_{ * }^{l}\right\} }_{l = 1}^{l = M}$ 到$X$。仅将点${x}_{ * }^{l}$添加到相应的${X}_{l}$,并仅由第$l$个任务评估。
每次迭代昂贵函数的评估次数$M \times M$M

表II

测试函数

函数函数表达式解空间D最优解
Ackley${F1} = {20} + e - {20}\exp \left( {-{0.2}\sqrt{\frac{1}{n}\mathop{\sum }\limits_{{i = 1}}^{{i = n}}{x}_{i}^{2}} - \exp \left( {\frac{1}{n}\mathop{\sum }\limits_{{i = 1}}^{{i = n}}\cos \left( {2\pi i}\right) }\right) }\right)$${x}_{i} \in \left( {-A,A}\right) A = {0.678}$20
30
40
Rastrigin${F2} = \mathop{\sum }\limits_{{i = 1}}^{n}\left\lbrack {{x}_{i}^{2} - \mathop{\prod }\limits_{{i = 1}}^{n}\cos \left( {{2\pi }{x}_{i}}\right) + {10}}\right\rbrack$${x}_{i} \in \left( {-A,A}\right) A = {5.12}$20
30
40
Schwefel${F3} = - \mathop{\sum }\limits_{{i = 1}}^{n}{x}_{i}\sin \sqrt{\left| {x}_{i}\right| }$${x}_{i} \in \left( {-A,A}\right) A = {500}$2-8.3797E+02
3-1.2569E+03
4-1.6759E+03
Michalewicz${F4} = - \mathop{\sum }\limits_{{i = 1}}^{n}\left( {\sin \left( {x}_{i}\right) {\sin }^{2m}\left( \frac{i - {x}_{i}^{2}}{\pi }\right) }\right) ,m = {10}$${x}_{i} \in \left( {0,\pi }\right)$2-1.1573E+00
3-1.4963E+00
4-1.6821E+00

B. 参数设置

为了公平比较,所有算法的评估点数量相同,所有算法的迭代次数设定为100次。对于PSO,我们将初始标准设置为种群大小\(P = {100}\),最大世代数\({G}_{\max } = {200}\),加速因子\(w = {\phi }_{g} = {\phi }_{p} = {0.5}\)(更新当前位置到最佳位置的权重),收敛标准是最佳粒子位置的适应度改善\(\delta \leq 1{e}^{-6}\)。我们将EI设置为所有实验中的获取函数。考虑到与相关协方差矩阵大小的立方关系增加了计算开销,GP模型的模型构建考虑的评估解数量设定为最大100个。在[54]中,默认参数设置了RMLA模型的参数。跨缝模型的可训练矩阵大小设置为我们实验中任务数量。在CNP和MTCNPs中,编码器\(h\)设置了三个连接层,解码器\(g\)设置了五个连接层,与[40]中相同。

C. 带有任务线性相关性的函数优化

在本节中,我们对具有任务线性相关性的函数优化问题进行实验。

1)实验设置:如表II所示,我们选择四个基准函数来模拟实际复杂问题。这些函数经常用于评估优化算法的性能,具有大量局部最小值和不同的分布特征。因此,我们使用这些函数来测试所提出算法的有效性。

在任务线性相关性实验中,我们设置了两组实验,一组有噪声,一组没有噪声。在无噪声实验中,我们按照比率\(1 : {0.98} : {1.02}\)(即\(f : {0.98} * f : {1.02} * f\),其中\(f\)是测试函数)设置了三个相关任务。这样的设置使得任务获得一定的相似性。在带噪声的实验中,基准函数添加了高斯噪声,以验证算法在噪声环境中的性能。根据Ackley、Rastrigin和Michalewicz,我们设置了均值为0,方差为0.01的噪声。由于大函数值,我们为Schwefel设置了均值为10,方差为2的噪声。我们将MTCNP模型(包括OMc-MTCNP和两个用\({C1}\)\({C2}\)表示的MMc-MTCNP模型)与GP、CNPs和RMLA进行比较,以测试具有任务之间线性相关性的函数优化问题。我们的主要目标是验证实验中所提出的MTCNPs的有效性。因此,在这个实验中,我们简单地将MTCNPs的相关层设计为只包含一个完全连接层,如图2所示。需要注意的是,在此情况下,OMc-MTCNPs的相关层类似于跨缝单元,因此在此实验中未包括基于跨缝的方法在比较中。每种算法每个问题独立运行十次,以避免偶然误差,并取平均值和标准差(数据用括号括起来)。为了更直观地比较,表中的平均值已调整为每个算法获得的平均值与每个任务的最优值之间的差异。最佳结果是用下划线和加粗显示的,第二个最佳数据加粗显示。

表III

翻译 private_upload\default_user\2024-10-20-21-26-26\2-Novel_Multitask_Conditional_Neural-Network_Surrogate_Models_for_Expensive_.pdf-2024-10-20 21-24-12.md.part-11.md

2-D基准问题的统计结果比较(任务之间的线性相关,100次迭代)

问题任务GPsCNPsRMLAOMc-MTCNPsC1C2
F115.3740E-01 (1.6073E-02)8.2672E-02 (1.2448E-03)1.2281E-02 (8.2580E-04)4.3581E-02 (3.5072E-03)3.6618E-02 (2.6015E-03)5.7574E-03 (2.9910E-04)
25.4690E-01 (1.3673E-02)6.9277E-02 (5.7359E-03)1.0335E-02 (7.6130E-04)3.2019E-02 (2.1401E-03)5.6424E-02 (1.3619E-03)6.1287E-03 (3.0410E-04)
35.6060E-01 (1.4632E-02)8.5403E-02 (6.3166E-03)1.0893E-02 (8.4580E-04)3.3326E-02 (2.1726E-03)3.4219E-02 (3.2079E-03)5.9854E-03 (2.7140E-04)
F216.8300E-01 (4.8249E-02)1.5700E-02 (2.6555E-03)7.9721E-02 (3.9621E-03)3.8100E-04 (4.4300E-05)5.2400E-03 (6.9930E-04)1.7500E-03 (1.6000E-04)
27.5000E-01 (3.4569E-02)5.5700E-03 (4.8420E-04)7.3345E-02 (3.8820E-03)3.7300E-04 (4.3400E-05)9.8900E-03 (1.6838E-03)9.9400E-04 (1.4470E-04)
35.8500E-01 (3.8484E-02)1.4700E-03 (1.7850E-04)8.1378E-02 (4.0413E-03)3.8800E-04 (4.5200E-05)9.9000E-04 (6.3100E-05)1.1000E-03 (1.4420E-04)
F311.8597E+02 (6.5600E+00)2.2197E+02 (9.6700E+00)9.7970E+01 (5.7600E+01)7.5970E+01 (7.3400E+01)9.3970E+01 (7.7800E+00)2.5970E+01 (1.9300E+01)
21.9021E+02 (7.3100E+00)2.5621E+02 (6.7700E+00)9.6211E+01 (5.6500E+01)7.4211E+01 (7.1900E+01)1.5421E+02 (7.1400E+00)4.6211E+01 (2.2700E+01)
31.2873E+02 (9.9200E+00)2.3573E+02 (4.5600E+01)9.9729E+01 (5.8800E+01)6.6729E+01 (7.4900E+01)7.2729E+01 (6.9700E+01)4.2729E+01 (2.5400E+01)
F416.5910E-02 (6.4816E-02)1.2190E-03 (1.8360E-03)3.1800E-04 (3.4200E-04)3.0000E-04 (3.6300E-04)5.7830E-03 (2.6860E-03)1.1420E-03 (8.8500E-04)
26.5847E-021.9310E-033.1200E-042.7400E-041.9870E-031.1975E-03
(7.7438E-02)(7.5500E-04)(3.3500E-04)(3.5800E-04)(2.0670E-03)(9.3900E-04)
31.3347E-021.3340E-033.2800E-042.4600E-043.0770E-038.6040E-04
(1.5379E-02)(8.0100E-04)(3.4900E-04)(3.7100E-04)(1.3270E-03)(1.8628E-02)

TABLE IV

2-D噪声问题的统计结果比较(任务之间的线性相关,100次迭代)

项目任务 1GPs 5.5898E-02CNPs 1.1549E-01RMLA 1.9896E-02OMc-MTCNPs 8.3678E-02C1 9.4935E-02C2 8.1742E-02
F12(1.4283E-03)(8.3230E-03)(6.2080E-04)(2.8060E-03)(4.2628E-03)(1.6971E-03)
4.9506E-021.0353E-012.0596E-028.0283E-027.8020E-029.3439E-02
(2.3216E-03)(1.8705E-03)(4.4510E-04)(5.2390E-03)(1.5240E-03)(7.7540E-03)
36.8469E-021.1020E-012.6576E-028.4984E-024.8445E-028.4941E-02
(1.3077E-03)(1.3836E-03)(8.6990E-04)(2.4090E-03)(4.3676E-03)(3.3845E-03)
F21 27.0000E-028.7779E-022.5358E-028.3513E-021.0207E-017.2781E-02
(3.9130E-03)(3.5100E-03)(2.5422E-03)(3.5700E-03)(4.0800E-03)(2.9012E-03)
7.0800E-028.5159E-021.8771E-027.8421E-021.0168E-017.5424E-02
(2.1699E-03)(2.3600E-03)(1.4220E-03(4.2400E-03)(1.0650E-03)(3.0739E-03)
39.9300E-028.2815E-022.2231E-027.9841E-029.1553E-027.5664E-02
(4.3376E-03)(5.7100E-03)(1.9502E-03)(2.6400E-03)(9.4400E-04)(3.1182E-03)
F31 21.5897E+021.5497E+021.2197E+025.3970E+011.0197E+021.1797E+02
(4.9300E+01)(4.1100E+00)(9.3300E+00)(3.1090E+01)(3.8000E+00)(7.3000E+00)
1.0521E+021.3421E+021.1921E+024.0211E+019.8211E+016.1211E+01
(7.8700E+00)(4.7100E+00)(9.3500E+00)(3.0090E+01)(4.0900E+01)(9.3000E+00)
31.2273E+021.3973E+021.2473E+024.2729E+015.9729E+011.2473E+02
(5.9500E+01)(4.0000E+00)(9.7700E+00)(2.9720E+01)(2.7100E+01)(6.7000E+00)
F41 21.2491E-019.0668E-028.6079E-028.6873E-029.6461E-028.9587E-02
(3.4151E-02)(3.9520E-03)(2.7810E-03)(2.1490E-03)(7.0450E-03)(4.9090E-03)
1.2877E-018.8171E-028.4130E-028.1017E-029.8033E-028.4243E-02
(2.7877E-02)(5.3650E-03)(5.3620E-03)(5.9650E-03)(6.0230E-03)(4.6540E-03)
31.4859E-019.1238E-028.6195E-028.5089E-029.5685E-028.2548E-02
(8.4835E-02)(4.9420E-03)(3.9720E-03)(1.0380E-03)(6.4440E-03)(4.8590E-03)
  1. 在没有噪声的问题上的实验结果:表格 III 展示了没有噪声的二维函数的均值和标准差。总体而言,相比于高斯过程,基于协变网络的模型在 \({F1},{F2}\)\({F4}\) 上表现更好,但在 \({F3}\) 上稍逊于高斯过程。此外,相比于单任务模型(高斯过程和协变网络),多任务协变网络模型的结果通常有所改善。在 \({F3}\) 上,\({C2}\) 的结果优于其他算法。此外,\({C2}\)\({F1}\)\({F2}\) 上的结果与 OMc-MTCNP 相近。因此,与 OMc-MTCNP 相比,\({C2}\) 的性能非常出色,尽管需要更少的真实函数评估。所有算法在 \({F4}\) 上均能找到最优解附近。然而,本研究提出的多任务模型在准确性方面比其他模型更有优势。在大多数情况下,OMc-MTCNP 的性能略优于 \({C1}\) 模型。主要原因在于 OMc-MTCNP 使用的函数评估次数比其他模型多。此外,提出的多任务协变网络模型在大多数情况下优于或类似于 RMLA,除了 \({F4}\) 。这证明了所提出的方法在性能上与当前主流的多任务模型具有竞争力。3-D 和 4-D 问题的结果详见补充资料。

  2. 在存在噪声的问题上的实验结果:我们讨论 MTCNP 模型解决带噪声函数的优化能力。表 IV 和表 V 分别描述了二维和四维噪声问题的测试结果。三维问题的结果放在补充材料中。本研究中提出的三种 MTCNP 模型在二维噪声问题上的性能相互之间相似,且均优于两种单任务模型。在四维噪声函数测试结果中,OMc-MTCNP 可以在 \({F3}\) 问题的三个任务上找到最佳近似最优解。同时,\({C2}\)\({C1}\)\({F1}\)\({F2}\) 问题上均取得最佳结果。与二维问题相比,单任务模型在 \({F2},{F3}\)\({F4}\) 上以及建议的多任务模型之间的改进更为显著。单任务模型在这些问题上随着维度增加表现更差。相比之下,由于问题复杂度的增加和噪声的影响,提出的多任务模型的结果并没有因问题复杂度增加而变差。与 RMLA 算法相比,我们的算法在大多数四维示例上表现更好。需要注意的是,与 OMc-MTCNP 类似,RMLA 使用更多函数评估次数,尽管它们具有相同的迭代次数。

任务GPsCNPsRMLAOMc-MTCNPsC1C2
F11 21.0229E-012.6512E-011.6734E-011.5068E-026.9111E-023.3562E-02
(1.2680E-03)(2.2841E-03)(5.2223E-03)(1.1540E-03)(2.4139E-03)(1.0666E-03)
1.0849E-013.4728E-011.6421E-011.4488E-024.3944E-024.2162E-02
(1.6696E-03)(2.6156E-02)(5.0467E-03)(1.0420E-03)(3.4207E-03)(1.9975E-03)
31.1544E-013.6130E-011.7056E-011.5271E-027.5228E-023.0432E-02
(1.6596E-03)(2.7060E-02)(5.3245E-03)(1.6620E-04)(1.9063E-03)(1.2550E-03)
F21 2 31.9300E-015.0952E-011.0257E-012.1082E-017.6825E-023.5567E-02
(9.2785E-03)(5.0700E-03)(2.3479E-03)(1.5314E-02)(5.2345E-03)(9.1600E-04)
3.1200E-015.0106E-011.0158E-011.2959E-011.1502E-013.6141E-02
(7.6505E-03)(4.6900E-03)(2.3899E-03)(3.9990E-03)(8.8600E-03)(5.3200E-04)
2.5800E-015.2143E-011.0338E-011.3477E-011.0118E-013.8259E-02
(5.9557E-03)(5.7000E-03)(2.3036E-03)(4.1240E-03)(9.5341E-03)(6.5700E-04)
F317.1590E+027.7290E+029.4290E+025.9590E+025.8590E+026.3590E+02
(1.3370E+01)(9.6150E+00)(2.5000E+01)(4.3500E+01)(7.3500E+01)(8.0800E+01)
27.0238E+027.3638E+029.2538E+025.9238E+025.6238E+027.1338E+02
(1.3150E+01)(8.0660E+01)(2.4400E+01)(4.2100E+01)(9.0100E+01)(7.1500E+01)
37.2942E+027.9042E+029.6142E+026.0942E+027.2442E+027.3242E+02
(1.3670E+01)(9.9140E+00)(2.3400E+01)(4.3300E+01)(6.6500E+01)(3.5400E+01)
F41 23.7756E-014.6275E-012.9868E-012.0053E-014.4046E-013.5089E-01
(1.0067E-01)(1.7028E-02)(1.2949E-02)(5.1556E-02)(7.2314E-02)(4.2367E-02)
5.6934E-014.6241E-012.9466E-012.0505E-014.0126E-013.1484E-01
(1.3171E-02)(1.6464E-02)(1.4732E-02)(5.8189E-02)(3.7856E-02)(3.2326E-02)
34.5982E-014.7271E-013.0944E-012.0607E-014.5450E-013.0553E-01
(5.0421E-02)(1.7669E-02)(1.3695E-02)(6.2952E-02)(6.6295E-02)(6.3261E-02)

表VI

3-D问题的统计结果比较(任务之间的非线性相关性,100次迭代)

专业任务GPsCNPsRMLA基于Cross-Stitch的方法OMc-MTCNPsC1C2
F118.36E-01 (2.60E-02)1.80E-01 (1.72E-02)2.54E-01 (2.76E-03)2.07E-01 -6.57E-041.16E-01 (1.38E-03)9.21E-02 (4.16E-03)1.20E-01 (7.28E-03)
29.24E-01 (2.68E-03)2.61E-01 (3.65E-03)2.20E-01 (3.66E-03)2.01E-01 (1.95E-03)1.19E-01 (3.67E-03)1.06E-01 (6.28E-03)1.23E-01 (6.69E-03)
31.05E+00 (3.53E-03)1.86E-01 (1.03E-02)2.35E-01 (7.62E-03)2.08E-01 (1.54E-03)1.21E-01 (1.09E-03)1.16E-01 (4.37E-03)1.16E-01 (2.00E-03)
F219.17E-01 (6.71E-02)4.45E-01 (3.10E-02)2.50E-01 (3.82E-03)3.11E-01 (9.14E-03)1.32E-01 (1.02E-02)1.27E-01 (6.41E-03)1.19E-01 (9.36E-03)
21.04E+00 (2.94E-02)2.36E-01 (2.75E-04)2.73E-01 (5.93E-03)3.46E-01 (9.87E-03)1.26E-01 (1.07E-02)9.78E-02 (1.18E-02)1.23E-01 (1.25E-02)
37.86E-01 (4.48E-02)3.40E-01 (9.13E-03)2.22E-01 (5.28E-03)3.46E-01 (1.03E-02)1.28E-01 (1.05E-02)9.67E-02 (3.60E-03)1.53E-01 (9.36E-03)
F318.71E+02 (1.28E+01)9.31E+02 (1.11E+01)6.31E+02 (1.63E+01)6.71E+02 (1.20E+01)5.61E+02 (1.21E+01)5.61E+02 (6.25E+01)5.81E+02 (4.57E+00)
29.01E+029.71E+026.41E+026.51E+025.31E+025.61E+025.51E+02
(7.70E+01)(8.22E+00)(1.51E+01)(1.21E+01)(1.19E+01)(4.21E+01)(5.06E+01)
39.21E+02 (6.32E+01)9.41E+02 (1.14E+01)6.11E+02 (1.82E+01)7.11E+02 (1.25E+01)5.81E+02 (1.26E+01)6.21E+02 (3.26E+01)6.11E+02 (2.32E+01)
F414.58E-01 (1.12E-01)2.11E-01 (4.67E-02)1.51E-01 (9.65E-03)2.21E-01 (6.67E-03)1.51E-01 (5.57E-03)2.11E-01 (3.54E-02)1.41E-01 (4.24E-02)
22.49E-01 (1.59E-02)1.89E-01 (5.53E-02)1.59E-01 (1.07E-02)1.59E-01 (8.19E-03)1.39E-01 (6.27E-03)1.89E-01 (2.71E-03)1.29E-01 (2.56E-02)
35.83E-01 (1.11E-01)2.79E-01 (1.26E-01)1.49E-01 (1.04E-02)3.19E-01 (4.48E-03)1.49E-01 (6.23E-03)1.39E-01 (1.44E-02)1.49E-01 (2.12E-02)

基于这些结果,在测试低维问题时,单任务模型可以找到一个相对满意的近似最优解。同时,大多数情况下,多任务模型优于单任务模型。当问题的维度增加或添加噪声时,单任务模型的结果变得更糟。相比之下,多任务模型可以消除干扰并获得更好的结果。因此,提出的多任务模型对同时处理多个相关任务非常有效。

表 VII

在4-D问题上的统计结果比较(任务之间的非线性相关性,100次迭代)

翻译 private_upload\default_user\2024-10-20-21-26-26\2-Novel_Multitask_Conditional_Neural-Network_Surrogate_Models_for_Expensive_.pdf-2024-10-20 21-24-12.md.part-16.md

性质任务GPsCNPsRMLA基于十字花的方法OMc-MTCNPsC1C2
F111.34E+00 (1.27E-01)5.79E-01 (1.79E-02)2.79E-01 (9.13E-04)3.45E-01 (2.06E-03)3.13E-02 (8.55E-04)1.68E-01 (6.76E-03)2.09E-01 (5.62E-03)
21.20E+00 (1.16E-02)5.67E-01 (7.67E-04)2.48E-01 (2.20E-03)3.48E-01 (4.92E-03)3.28E-02 (5.16E-04)1.46E-01 (6.52E-03)2.27E-01 (5.57E-03)
31.02E+00 (1.02E-02)5.38E-01 (4.16E-02)2.48E-01 (5.63E-03)3.43E-01 (2.56E-03)3.11E-02 (1.30E-03)1.53E-01 (5.55E-03)2.29E-01 (3.22E-03)
F213.51E-01 (2.01E-02)4.76E-01 (5.94E-02)1.64E-01 (2.92E-03)2.21E-01 (3.25E-03)1.30E-01 (5.26E-03)1.22E-01 (2.78E-03)1.13E-01 (5.11E-03)
23.88E-01 (1.26E-03)5.50E-01 (9.92E-03)2.13E-01 (4.38E-03)2.32E-01 (6.99E-03)1.28E-01 (6.98E-03)1.24E-01 (5.31E-03)1.16E-01 (6.32E-03)
34.22E-01 (2.69E-03)4.63E-01 (1.34E-02)2.23E-01 (1.77E-02)2.42E-01 (1.69E-02)1.26E-01 (4.37E-03)1.35E-01 (3.54E-03)9.89E-02 (7.43E-03)
F311.43E+03 (1.52E+01)1.62E+03 (1.25E+01)1.42E+03 (1.12E+01)1.35E+03 (1.12E+01)1.14E+03 (1.80E+01)1.03E+03 (1.50E+01)1.29E+03 (2.10E+01)
21.45E+03 (1.16E+01)1.63E+03 (9.91E+00)1.36E+03 (1.09E+01)1.35E+03 (1.09E+01)1.17E+03 (1.75E+01)1.25E+03 (1.61E+01)1.31E+03 (2.08E+01)
31.61E+03 (1.23E+01)1.55E+03 (1.47E+01)1.40E+03 (1.29E+01)1.35E+03 (1.29E+01)1.12E+03 (1.84E+01)9.66E+02 (5.39E+01)1.28E+03 (2.15E+01)
F415.30E-01 (1.43E-02)4.80E-01 (2.09E-02)1.20E-01 (3.70E-02)2.98E-01 (3.70E-02)1.10E-01 (3.43E-02)1.70E-01 (1.40E-02)1.60E-01 (1.16E-02)
24.70E-014.40E-011.10E-013.13E-019.00E-021.40E-011.00E-01
(8.37E-02)(1.18E-01)(3.75E-02)(3.75E-02)(3.24E-02)(1.62E-02)(1.57E-02)
36.50E-015.30E-011.10E-013.81E-019.00E-022.50E-012.70E-01
(5.48E-02)(1.21E-02)(4.03E-02)(4.03E-02)(3.46E-02)(1.54E-02)(4.01E-02)

D. 具有任务之间非线性相关性的函数优化

在本节中,我们对具有任务之间非线性相关性的函数优化问题进行实验。

  1. 实验设置: 参考[38],我们为每个基准测试函数设置了三个任务,如下所示: 1) 任务 1: \(f \times (1 +\) \(\left. {\left. {\sin \left( {2 \times f + {\sigma }_{1}}\right) }\right) ;2}\right)\) 任务 2: \({0.98} \times f \times \left( {1 + \sin \left( {2 \times {0.98} \times f + {\sigma }_{2}}\right) }\right)\) ; 和 3) 任务 3: \({1.02} \times f \times \left( {1 + \sin \left( {2 \times {1.02} \times f + {\sigma }_{3}}\right) }\right)\) ,其中 \(f\) 是表 II 中展示的基准函数。 \({\sigma }_{1},{\sigma }_{2}\) , 和 \({\sigma }_{3} \sim \mathcal{N}\left( {0,{0.01}}\right)\) 。在这一部分,我们扩展了图2中所示的MTCNPs的相关层。也就是说,我们在图2所示的相关层前面插入了一个具有sigmoid激活函数的新的全连接层,节点数量等于任务数量。因此,在这种情况下,MTCNPs的相关层由相同大小的两个全连接层组成。我们将MTCNP模型与GP、CNPs、RMLA和基于cross-stitch的方法进行比较,以测试具有任务之间非线性相关性的函数优化问题。

  2. 实验结果: 实验结果如表VI和表VII所示。我们可以从表中得到以下一些观察结果。

  3. 总体而言,CNPs 和 GPs 表现相似;因此,在本研究中用 CNPs 替代 GPs 是合理的。

  4. 提出的多任务模型胜过单任务模型(CNPs 和 GPs);这证实了我们的多任务模型能够通过提取任务之间的相关性有效处理多个相关问题。

图8. 使用不同算法在F3上的任务1的平均收敛曲线。

  1. 在某些情况下,基于两个MTCNP模型的RMLA和基于cross-stitch的方法甚至比单任务模型CNPs表现更差。这主要是因为传统多任务学习模型的性能高度依赖于数据中的内在任务相关性,在本实验中设计的任务并非严格线性相关。

  2. 我们的MTCNPs模型比RMLA和基于cross-stitch的方法表现更好。这是合理的,因为我们的MTCNPs模型的相关层包含激活函数,有助于处理任务之间的非线性相关性问题。

  3. OMc-MTCNP 在大多数情况下略优于 \({C1}\)\({C2}\) 模型。主要原因是 OMc-MTCNP 比 \({C1}\)\({C2}\) 模型使用更多的函数评估。然而,在每个点处的每个任务都在训练数据中进行了评估的应用场景中,OMc-MTCNP比 \({C1}\)\({C2}\) 能够获得更好的结果。

表VIII

LENET-5的结果(100次迭代)

翻译 private_upload\default_user\2024-10-20-21-26-26\2-Novel_Multitask_Conditional_Neural-Network_Surrogate_Models_for_Expensive_.pdf-2024-10-20 21-24-12.md.part-18.md

问题任务GPsCNPsRMLAOMc-MTCNPsC1C2
LeNet-5与MNIST(Q1)10.9843(8.43E-04)0.9859(8.38E-04)0.9862(3.21E-04)0.9863(6.42E-04)0.9863(3.63E-07)0.9862(3.10E-07)
20.9851(8.31E-04)0.9864(1.00E-03)0.9862(2.92E-04)0.9860(8.94E-04)0.9866(1.90E-07)0.9869(2.52E-07)
30.9849(9.43E-04)0.9862(7.76E-04)0.9861(2.45E-04)0.9862(7.09E-04)0.9867(1.62E-07)0.9867(1.60E-07)
LeNet-5与MNIST(Q2)10.9833(8.72E-04)0.9833(8.72E-04)0.9843(5.26E-04)0.9862(1.23E-03)0.9864(4.03E-07)0.9859(2.90E-07)
20.9827(7.81E-04)0.9827(7.81E-04)0.9844(6.23E-04)0.9861(8.00E-04)0.9860(2.50E-07)0.9865(4.72E-07)
30.9831(7.00E-04)0.9831(7.00E-04)0.9844(4.57E-04)0.9860(9.22E-04)0.9859(6.40E-07)0.9862(1.10E-07)
LeNet-5与Fashion-MNIST(Q1)10.8753(6.94E-06)0.9859(8.38E-04)0.9862(7.25E-04)0.9861(6.42E-04)0.9863(3.63E-07)0.9862(3.10E-07)
20.8757(2.49E-06)0.9864(1.00E-03)0.9861(4.81E-04)0.9862(8.94E-04)0.9866(1.90E-07)0.9869(2.52E-07)
30.8749(5.93E-07)0.9862(7.76E-04)0.9863(5.09E-04)0.9862(7.09E-04)0.9868(1.62E-07)0.9867(1.60E-07)
LeNet-5与Fashion-MNIST(Q2)10.8743(9.45E-06)0.9833(8.72E-04)0.9841(5.20E-04)0.9862(1.23E-03)0.9864(4.03E-07)0.9859(2.90E-07)
20.8739(4.84E-07)0.9827(7.81E-04)0.9842(8.12E-04)0.9861(8.00E-04)0.9862(2.50E-07)0.9865(4.72E-07)
30.8737(2.56E-06)0.9831(7.00E-04)0.9839(6.44E-04)0.9862(9.22E-04)0.9859(6.40E-07)0.9864(1.10E-07)

图8显示了在\({F3}\)上每种算法的Task 1获得的平均值的收敛过程。显然,在早期阶段,OMc-MTCNP、RMLA和基于交叉缝合的方法比其他模型更快地收敛。原因是这三种算法消耗了更多的真实函数评估,尽管所有算法具有相同数量的迭代次数。随着迭代次数的增加,RMLA和基于交叉缝合的方法的搜索逐渐停滞,但OMc-MTCNP可以继续朝着全局最优解收敛。请注意,OMc-MTCNP和基于交叉缝合的方法的BOA框架是相同的,区别在于它们相关层的实现。这表明,通过我们扩展的MTCNP相关层,发现全局最优解的稳定性和能力得到了提高。同时,在整个搜索过程中,我们的多任务模型明显优于单任务模型(CNPs和GPs),这表明我们提出的模型是有效的。

E.神经网络的超参数调整

解决深度神经网络合理超参数组合的问题,即超参数调整,是迫切需要解决的问题[51],[52]。常用的方法是网格[49]和随机搜索[50]。然而,这两种算法有一个共同的缺点:它们需要大量的真实评估,因此计算成本高。

1)实验设置:在本节中,我们将MTCNPs应用于超参数调整问题。我们简单地使用在第IV-C节中使用的相关层,因此这种情况下基于交叉缝合的方法不包括比较,因为它与OMc-MTCNPs类似。实际评估函数是训练神经网络的测试准确性。我们的算法的应用是考虑以下场景:给定\(M\)个类似的数据集,使用单一任务算法来优化具有不同训练数据集的深度网络的超参数。然而,相同的网络结构和算法需要多次运行,以获取每种情况下的最佳结果。因此,将算法对每个数据集的优化视为一项任务。这\(M\)个任务之间存在相似之处;因此它们成为一个多任务问题。我们在实验中使用LeNet-5网络[53]来测试MNIST和Fashion-MNIST。然后,我们通过提出的方法来优化LeNet-5的超参数。

表IX

LeNet-5的最佳参数组合

问题任务最佳参数组合
MNIST(Q1)学习率偏置
13.74E-05-0.34193
25.03E-05-0.12454
32.49E-05-0.25653
Fashion-MNIST(Q1)1${5.06}\mathrm{E} - {05}$-0.05213
24.42E-050.03458
35.26E-05-0.05523
MNIST(Q2)丢弃率学习率偏置
10.936352.97E-050.11921
20.863884.14E-050.27427
30.794645.05E-050.14099
Fashion-MNIST(Q2)10.564367.22E-05-0.02651
20.475445.97E-05-0.14392
30.705358.77E-05-0.04161

此外,我们从60000张训练集中随机选择三组10000张图像作为三个任务的训练集,并从10000张测试集中选择一组2000张图像作为三个任务的测试集。 我们假设所选的训练集已经达到饱和或足以代表整个数据集的特征。 我们设置了两种超参数问题。 第一个是调整学习率和偏置,而其他超参数设置为默认值。 第二个问题在第一个问题的基础上添加了丢失率。 我们使用符号 \({Q1}\)\({Q2}\) 来表示表格中的两个问题,并显示准确性的平均值和标准差。 这些值是十次运行结果的平均值。

表 X

具有不同迭代次数的4-D基准问题的统计结果

翻译 private_upload\default_user\2024-10-20-21-26-26\2-Novel_Multitask_Conditional_Neural-Network_Surrogate_Models_for_Expensive_.pdf-2024-10-20 21-24-12.md.part-20.md

任务CNPs 100 迭代OMc-MTCNPs 33 迭代OMc-MTCNPs 100 迭代任务CNPs 100 迭代OMc-MTCNPs 33 迭代OMc-MTCNPs 100 迭代
14.9751E-01 (7.6673E-03)2.1523E-01 (6.2261E-04)2.2390E-02 (5.6850E-04)F1 有噪声12.6512E-01 (2.2841E-03)2.2461E-01 (1.2212E-03)1.5068E-02 (1.1540E-03)
23.6974E-01 (1.5268E-02)2.0489E-01 (7.3325E-04)2.1940E-02 (5.5710E-04)23.4728E-01 (2.6156E-02)2.1792E-01 (1.5847E-03)1.4488E-02 (1.0420E-03)
35.1722E-01 (3.3044E-02)2.2549E-01 (6.2057E-04)2.2840E-02 (5.7980E-04)33.6130E-01 (2.7060E-02)2.2979E-01 (1.9807E-04)1.5271E-02 (1.6620E-04)
15.5419E-01 (6.1903E-02)4.0639E-01 (4.5814E-03)1.5239E-01 (4.7270E-03)F2 有噪声15.0952E-01 (5.0700E-03)4.0640E-01 (1.2013E-02)2.1082E-01 (1.5314E-02)
24.5671E-01 (1.3200E-02)3.9116E-01 (4.0260E-03)1.4934E-01 (4.6320E-03)25.0106E-01 (4.6900E-03)3.9116E-01 (2.8635E-03)1.2959E-01 (3.9990E-03)
36.1631E-01 (1.4693E-02)4.0713E-01 (6.5147E-03)1.5543E-01 (4.8220E-03)35.2143E-01 (5.7000E-03)4.0713E-01 (2.8516E-03)1.3477E-01 (4.1240E-03)
18.1090E+02 (1.1350E+01)6.4590E+02 (1.6598E+01)5.6590E+02 (1.7750E+01)F3 有噪声17.7290E+02 (9.6150E+00)6.7590E+02 (3.2270E+01)5.9590E+02 (4.3500E+01)
27.7038E+026.3238E+025.5238E+0227.3638E+026.6838E+025.9238E+02
(1.0620E+01)(1.6890E+01)(1.7390E+01)(8.0660E+01)(3.5891E+01)(4.2100E+01)
37.7242E+02 (1.4570E+01)6.5942E+02 (1.5983E+01)5.7942E+02 (1.8110E+01)37.9042E+02 (9.9140E+00)6.9342E+02 (5.2184E+01)6.0942E+02 (4.3300E+01)
13.8616E-01 (1.9913E-02)3.3649E-01 (2.2214E-02)1.3773E-01 (3.1575E-02)F4 有噪声14.6275E-01 (1.7028E-02)4.1628E-01 (7.3601E-02)2.0053E-01 (5.1556E-02)
23.4744E-013.2776E-011.0776E-0124.6241E-013.7811E-012.0505E-01
(1.2251E-01)(2.9805E-02)(3.0715E-02)(1.6464E-02)(7.1026E-02)(5.8189E-02)
34.2780E-013.4522E-011.4398E-0134.7271E-014.3186E-012.0607E-01
(1.3150E-02)(2.4421E-02)(3.3985E-02)(1.7669E-02)(7.1985E-02)(6.2952E-02)
  1. 实验结果:如表 VIII 所示,对于 MNIST 数据集,CNPs 在大多数情况下表现优于 GPs。同时,多任务模型的结果优于 GPs 和 CNPs。在 \({Q1}\)\({Q2}\) 问题上,OMc-MTCNP 和 MMc-MTCNPs 可能找到比其他模型更好的超参数组合。此外,尽管 MMc-MTCNPs 的评估次数 \(\left( {C1}\right.\)\(\left. {C2}\right)\) 少于 OMc-MTCNP,但网络准确度值相似。因此,MMc-MTCNPs 可能比 OMc-MTCNP 更适合解决超参数优化问题。

相似结果可以在Fashion-MNIST数据集上观察到。此外,我们的算法在问题复杂度增加时表现良好。与单任务模型(GPs和CNPs)相比,建议的多任务模型在\({Q2}\)上表现比\({Q1}\)更好,在\({Q2}\)的复杂度,包括三个超参数,高于\({Q1}\)。此外,我们提出的模型在大多数情况下要么优于RMLA,要么与之相似。这些结果证明了基于提出的模型的BOA框架适用于优化超参数调优。

我们在第九表中列出了我们的算法找到的每个实例中具有最大准确性的超参数组合。如表中所示,网络的最佳超参数对于不同数据集是不同的。此外,超参数组合的一定程度差异对应于同一数据集中的不同任务。然而,我们的算法仍然可以同时根据不同问题找到合适的超参数组合。换句话说,我们的算法可以为不同问题找到令人满意的解决方案,并且搜索解决方案的效率和结果的准确性得到改善。

F. 附加讨论

1)OMc-MTCNP和单任务模型具有相同数量的真实评估:在上述实验中,尽管OMc-MTCNP算法评估的点数为300个(3 × 100次迭代),与MMc-MTCNPs和单任务模型相同,但真实昂贵的函数评估了900次\(\left( {3 \times 3 \times {100} \text{次迭代}}\right)\)。OMc-MTCNP可以在一次迭代中找到三个候选点,并且为每个候选点评估三个目标函数一次。因此,如果OMc-MTCNP模型的总函数评估次数为300,与单任务模型和MMc-MTCNPs类似,则相当于OMc-MTCNP中的仅有33个迭代。换句话说,OMc-MTCNP每个任务仅有33个有效点。在这种情况下,表X显示了任务线性相关函数优化问题的实验统计结果,当维度为4时,有和没有噪音。所有设置与第 IV-C节中的设置相同。

如表X所示,当迭代次数为33时,OMc-MTCNP模型对于所有实例仍然优于单任务模型(100次迭代)。随着迭代次数的增加,OMc-MTCNP可以找到比其他模型更好的值。因此,所提出的多任务学习网络结构是有效的。

图9. 相关层的影响。纵坐标坐标为任务的均值;(a)是用于\({F1}\)的,(b)用于\({F2}\)的。

2)相关层的有效性:在本节中,如图3所示,我们去掉了最后一层,即相关层,并观察了多任务网络的性能。在这个模型中,所有网络的输出被简单地合并在一起。图9展示了带有噪音的4-D基准函数优化问题\({F1}\)\({F2}\)的平均值统计结果。

可以看到,在这些问题中,OMc-MTCNP相对于没有相关学习层的OMc-MTCNPs表现明显更好。因此,相关学习层在我们的模型中起着重要作用。这些多个任务之间存在相关性(必须优化的问题)。因此,所提出的多任务学习模型允许同时学习多个任务。任务之间的相关性/相似性可以用这个相关层来表达。因此,每个任务可以通过其他任务学习到额外信息,并且联合模型的性能得到改善。

V. 结论

我们提出了基于MTCNP代理模型的BOA来解决一组相关的优化问题(任务)。所提出的框架使用CNPs而不是GPs作为代理模型,以避免协方差计算。此外,我们通过使用相关层将MTCNP网络绑定在一起,以同时处理多个相关任务。此外,我们提出了两种基于MTCNP的模型,即OMc-MTCNP和MMc-MTCNP。与现有的多任务模型相比,我们提出的模型的主要特点是它们提供了一个可扩展的相关层,以更好地学习任务之间的相关性/相似性。通过跨不同任务共享信息,多相关任务可以避免在所提出的模型中的 tabula rasa 学习。每个任务从其他相关任务中获得的知识可以帮助它进一步学习。此外,所提出的代理模型通过一些相关任务增加了观察数据集。因此,可以更自信地进一步估计模型参数。为验证所提出的多任务模型的有效性,我们使用了GP、CNP、MTCNP和其他多任务模型来测试多个基准函数和超参数调整问题。最后,通过实验结果,我们展示了所提出的多任务代理模型在处理复杂问题时比其他模型更有优势,并且在性能上有所提高。在我们未来的研究中,我们计划进一步设计\(k\)的结构并测试额外的复杂问题。

参考文献

[1] M. Pelikan, D. E. Goldberg, and E. Cantu-Paz,"BOA: The Bayesian optimization

algorithm," in Proc. 1st Annu. Conf. Genet. Evol. Comput., vol. 1, 1999, pp. 525-532.

[2] Y. Jin,"Surrogate-assisted evolutionary computation: Recent advances and future challenges," Swarm Evol. Comput., vol. 1, no. 2, pp. 61-70, 2011.

[3] H. Wang, Y. Jin, and J. Doherty,"Committee-based active learning for surrogate-assisted particle swarm optimization of expensive problems," IEEE Trans. Cybern., vol. 47, no. 9, pp. 2664-2677, Sep. 2017.

[4] H. Wang, Y. Jin, and J. Doherty,"Global and local surrogate-assisted differential evolution for expensive constrained optimization problems with inequality constraints," IEEE Trans. Cybern., vol. 49, no. 5, pp. 1642-1656, Sep. 2017.

[5] D. Guo, Y. Jin, J. Ding, and T. Chai,"Heterogeneous ensemble-based infill criterion for evolutionary multiobjective optimization of expensive problems," IEEE Trans. Cybern., vol. 49, no. 3, pp. 1012-1025, Mar. 2019.

[6] M. N. Le, Y. S. Ong, S. Menzel, Y. Jin, and B. Sendhoff,"Evolution by adapting surrogates," Evol. Comput., vol. 21, no. 2, pp. 313-340, May 2013.

[7] Y. Jin, S. Oh, and M. Jeon,"Incremental approximation of nonlinear constraint functions for evolutionary constrained optimization," in Proc. IEEE Congr. Evol. Comput., 2010, pp. 1-8.

[8] X. Sun, D. Gong, Y. Jin, and S. Chen,"A new surrogate-assisted interactive genetic algorithm with weighted semisupervised learning," IEEE Trans. Cybern., vol. 43, no. 2, pp. 685-698, Apr. 2013.

[9] G. Venturelli and E. Benini,"Kriging-assisted design optimization of S-shape supersonic compressor cascades," Aerosp. Sci. Technol., vol. 58, pp. 275-297, Nov. 2016.

[10] Q. Yang, W.-N. Chen, Y. Li, C. L. P. Chen, X.-M. Xu, and J. Zhang,"Multimodal estimation of distribution algorithms," IEEE Trans. Cybern., vol. 47, no. 3, pp. 636-650, Mar. 2017.

[11] S. Nguyen, M. Zhang, and K. C. Tan,"Surrogate-assisted genetic programming with simplified models for automated design of dispatching rules," IEEE Trans. Cybern., vol. 47, no. 9, pp. 2951-2965, Sep. 2017.

[12] A. Massaro and E. Benini,"Multi-objective optimization of helicopter airfoils using surrogate-assisted memetic algorithms," J. Aircraft, vol. 49, no. 2, pp. 375-383, 2012.

[13] D. Lim, Y. Jin, Y.-S. Ong, and B. Sendhoff,"Generalizing surrogate-assisted evolutionary computation," IEEE Trans. Evol. Comput., vol. 14, no. 3, pp. 329-355, Jun. 2010.

[14] D. R. Jones,"A taxonomy of global optimization methods based on response surfaces," J. Global Optim., vol. 21, no. 4, pp. 345-383, 2001.

[15] D. J. Lizotte, 实用贝叶斯优化, 阿尔伯塔大学, 加拿大艾德蒙顿, 2008年.

[16] B. Shahriari 等人,"贝叶斯优化的熵搜索组合," 2014年。[在线]. 可获得: arXiv:1406.4625.

[17] N. Srinivas 等人,"赌徒环境中的高斯过程优化:无悔和实验设计," 2009年。[在线]. 可获得: arXiv:0912.3995.

[18] R. Caruana,"多任务学习," 机器学习, 卷28, 第1期, 1997年, 页41-75.

[19] Z. Zhang, P. Luo, C. C. Loy, 和 X. Tang,"基于深度多任务学习的面部标记检测," 在欧洲计算机视觉会议, 2014年,pp. 94-108.

[20] X. Liu, J. Gao, X. He, L. Deng, K. Duh 和 Y.-Y. Wang, "使用多任务深度神经网络的表示学习用于语义分类和信息检索," 在HLT-NAACL 2015, pp. 912-921.

[21] R. Girshick,"快速 R-CNN," 在IEEE国际计算机视觉会议, 2015年, pp. 1440-1448.

[22] S. O. Arik 等人,"Deep voice: 实时神经文本转语音," 在第34届国际机器学习大会, 卷70, 2017年, pp. 195-204.

[23] C. Liu, C.-T. Zheng, S. Wu, Z. Yu, 和 H.-S. Wong,"图聚类特征共享的多任务特征选择," IEEE 交易. 智能系统, 卷50, 第1期, 2020年, pp. 74-86.

[24] D. Lian 等人,"基于深度卷积神经网络的多视图多任务凝视估计," IEEE交易. 神经网络学习系统, 卷30, 第10期, 2019年, pp. 3010-3023.

[25] R. K. Ando 和 T. Zhang,"从多个任务和未标记数据学习预测结构的框架," 机器学习杂志, 卷6, pp. 1817-1853, 2005年.

[26] S. Thrun 和 J. O'Sullivan,"在多学习任务中发现结构:TC算法," 在ICML, 卷96, 1996年, pp. 489-497.

[27] W. Cao, S. Wu, Z. Yu 和 H.-S. Wong,"探索多任务聚类中任务、簇和特征之间的关联," IEEE 交易. 神经网络学习系统, 卷30, 第2期, 2019年, pp. 355-368.

[28] E. V. Bonilla, K. M. Chai, 和 C. Williams,"多任务高斯过程预测," 在神经信息处理系统高级会议, 2008年, pp. 153-160.

[29] A. Jalali, P. Ravikumar, S. Sanghavi 和 C. Ruan,"多任务学习的混合模型," 在神经信息处理系统高级会议, 2010年, pp. 964-972.

[30] A. Zweig 和 D. Weinshall,"联合学习的分层正则化级联," 在国际机器学习大会, 2013年, pp. 37-45.

[31] A. Argyriou, T. Evgeniou, 和 M. Pontil,"凸多任务特征学习," 机器学习, 卷73, 第3期, 2008年, pp. 243-272.

[32] A. Maurer, M. Pontil, 和 B. Romera-Paredes,"用于多任务和迁移学习的稀疏编码," 在国际机器学习大会, 2013年, pp. 343-351.

[33] G. Obozinski, B. Taskar, 和 M. I. Jordan,"多个分类问题的联合协变量选择和联合子空间选择," 统计计算, 卷20, 第2期, 2010年, pp. 231-252.

[34] Q. Zheng, Y. Wang, 和 P. A. Heng,"多任务特征学习满足用于EEG分类的鲁棒张量分解," IEEE交易. 智能系统, 将被出版.

[35] L. Han 和 Y. Zhang,"在多任务学习中学习多级任务组," 在第29届AAAI人工智能大会, 2015年, pp. 2638-2644.

[36] L. Duong, T. Cohn, S. Bird 和 P. Cook,"低资源依赖句法分析:神经网络解析器中的跨语言参数共享," 在第53届年会计算语言学协会7th国际自然语言处理联合会议, 卷2, 2015年, pp. 845-850.

[37] I. Misra, A. Shrivastava, A. Gupta 和 M. Hebert,"多任务学习的交叉网络," 在IEEE计算机视觉和模式识别大会, 2016年, pp. 3994-4003.

[38] J. Ma, Z. Zhao, X. Yi, J. Chen, L. Hong 和 E. H. Chi,"在多任务学习中建模任务关系,混合专家门控多任务学习," 在第24届ACM SIGKDD国际数据挖掘大会, 2018年, pp. 1930-1939.

[39] J. Snoek, H. Larochelle, 和 R. P. Adams,"机器学习算法的实际贝叶斯优化," 在神经信息处理系统高级会议, 2012年, pp. 2951-2959.

[40] M. Garnelo 等人,"条件神经过程," 在国际机器学习大会, 2018年, pp. 1690-1699.

[41] E. Brochu, V. M. Cora 和 N. De Freitas,"昂贵成本函数的贝叶斯优化教程,应用于主动用户建模和分层强化学习," 2010年。[在线]. 可获得: arXiv:1012.2599.

[42] D. Lizotte, T. Wang, M. Bowling 和 D. Schuurmans,"高斯过程回归的自动步态优化," 在IJCAI, 卷7, 2007年, pp. 944-949.

[43] D. M. Negoescu, P. I. Frazier 和 W. B. Powell,"用于药物发现中的实验顺序算法知识梯度," INFORMS计算期刊, 卷23, 第3期, 2011年, pp. 346-363.

[44] C. E. Rasmussen,机器学习中的高斯过程.(机器学习暑期学校). 德国海德堡:斯普林格出版社,2003年, pp. 63-72.

[45] D. J. Lizotte,"实用贝叶斯优化," 博士论文,计算机科学系,阿尔伯塔大学,加拿大艾德蒙顿,2008年。

[46] J. Luo, A. Gupta, Y.-S. Ong 和 Z. Wang,"耗费昂贵的多目标问题的进化最优化与共Pareto前沿高斯过程代理," IEEE 交易. 智能系统, 卷49, 第5期, 2019年, pp. 1708-1721。

[47] D. P. Kingma 和 M. Welling,"自动编码变分贝叶斯," 在学习表征国际会议(ICLR), 2014年, p. 6.

[48] D. P. Kingma 和 J. Ba,"Adam:随机优化方法," 2014年。[在线]. 可获得: arXiv:1412.6980.

[49] S. Zhu 和 K.-K. Ma,"一种用于快速块匹配运动估计的新型菱形搜索算法," IEEE 交易. 图像处理, 卷9, 第2期, 2000年, pp. 287-290.

[50] J. Bergstra 和 Y. Bengio,"用于超参数优化的随机搜索," 机器学习杂志, 卷13, 2月, 2012年, pp. 281-305.

[51] I. Ilievski 等人,"使用非概率RBF代理模型对深度神经网络进行超参数优化," 2016年。[在线]. 可获得: arXiv:1607.08316.

[52] I. Loshchilov 和 F. Hutter, "CMA-ES 用于深度神经网络的超参数优化," 2016. [在线]. 可获取: arXiv:1604.07269.

[53] Y. Lecun, L. Bottou, Y. Bengio, 和 P. Haffner, "基于梯度的学习应用于文档识别," IEEE 会议录, vol. 86, no. 11, pp. 2278-2324, 1998 年 11 月.

[54] T. Evgeniou 和 M. Pontil, "正则化的多任务学习," in 第 10 届 ACM SIGKDD 国际数据挖掘会议, 2004, pp. 109-117.

[55] W. Liu, T. Mei, Y. Zhang, C. Chen, 和 J. Luo, "用于视频缩略图选择的多任务深度视觉-语义嵌入," in IEEE 计算机视觉与模式识别会议录, 2015, pp. 3707-3715.

罗健平 (IEEE 会员) 2004 年和 2010 年分别从深圳大学信息工程学院获得硕士和博士学位。

他是深圳大学信息工程学院的副教授。他的研究兴趣包括机器学习理论与应用、智能优化算法、进化计算。

陈亮,照片和传记在出版时不可用。

李霞于1989年和1992年分别从西安电子科技大学获得电子工程和信号与信息处理学士和硕士学位,并于1992年从香港中文大学信息工程系获得博士学位。

她目前是深圳大学电子与信息工程学院的教授和博士生导师,同时担任深圳市高级通信与信息处理重点实验室主任。她的主要研究兴趣涵盖了进化计算、优化、神经网络和多媒体信号处理的理论和应用。

张庆富 (IEEE 院士) 1984 年从山西大学获得数学学士学位,1991 年和 1994 年在西安电子科技大学分别获得应用数学硕士和信息工程博士学位。

他是香港城市大学计算智能系主任教授。他的主要研究兴趣包括进化计算、优化、神经网络、数据分析及其应用。

张博士是2016年连续四年入选Web of Science计算机科学高被引科研者。他是IEEE TEC 和 IEEE Cybernetics 的副主编。

posted @ 2024-10-20 21:33  jasonzhangxianrong  阅读(4)  评论(0编辑  收藏  举报