多任务优化
针对昂贵优化问题的小说多任务条件神经网络代理模型
罗建平(Jianping Luo®), IEEE会员, 陈亮, 李霞, 张清夫, IEEE会士
摘要 - 通过在任务间共享信息来同时学习多个相关任务,避免“从无开始”的学习,并在没有转移的情况下提高性能(即,当每个任务独立学习时)。本研究探讨了具有条件神经过程(CNP)网络的多任务学习,并基于CNP提出了两个多任务学习网络模型,即一对多多任务CNP(OMc-MTCNP)和多对多MTCNP(MMc-MTCNP)。与现有的多任务模型相比,所提出的模型添加了可扩展的相关学习层,用于学习任务之间的相关性。此外,所提出的多任务CNP(MTCNP)网络被视为代理模型,并应用于贝叶斯优化框架中,以取代高斯过程(GP),以避免复杂的协方差计算。所提出的贝叶斯优化框架通过利用任务之间可能的依赖关系来共享跨任务知识,同时推断多个任务。所提出的代理模型通过将观察数据集与一些相关任务添加以确信地估计模型参数。在多种情景下进行的实验研究表明,与基于GP、单任务和其他多任务模型的贝叶斯优化方法相比,所提出的算法在性能上具有竞争力。
关键词 - 进化优化、高斯过程(GP)、多任务学习、神经网络、代理模型。
一、引言
在复杂且昂贵的优化问题中,目标函数评估成本很高,无法承担大量的函数评估。贝叶斯优化算法(BOAs)[1]是一种常用的昂贵优化方法,它使用概率模型来模拟未评估解的目标函数值的分布[2]-[13]。然后,BOA定义了一种衡量评估新解的价值的获取函数。通常,BOA使用具有最大获取值的新解进行评估。良好设计的获取函数可以以原则性方式平衡利用和探索。常用的获取函数包括改进的概率[14]、期望改进(EI)[15]、汤普森采样[16]和高斯过程(GP)上限置信界[17]。
在许多应用中,存在一组相关的昂贵优化问题。以协作方式解决这些问题比一个接一个地解决它们而不探索它们之间的关系更有效。我们注意到在BOAs方面很少有这样的努力。在本文中,借鉴多任务学习的思想,我们提出了一种基于多任务网络的用于处理一组昂贵优化问题的BOA。
可以说,GP [28],[39]是BOAs中最常用的代理模型。然而,在GPs中计算协方差矩阵的高复杂度是一个问题,因为数据集或维度增加时,其复杂度会呈立方增长。此外,需要一个额外的过程来确定最适合的核函数和超参数。最近,条件神经过程(CNP)模型[40]被提出。CNP结合了GP和神经网络的优点。与GPs类似,CNP可以使用少量数据点进行相对准确的预测,并测量其预测的不确定性,而且它们可以很好地适应复杂函数和大型数据集。此外,CNP无需确定核函数和超参数。CNP的计算复杂性比GPs低得多。基于这些原因,我们在研究中使用CNP,提出了一个基于MTCNP的BOA框架。在这种方法中,将每个问题视为一个任务,并为每个任务构建一个独立的CNP网络。所有任务的多个CNP网络通过可扩展的相关学习层相连接。该层中的参数表示任务之间的相关性。基于MTCNP的模型提高了利用相对较小的初始数据学习当前观察内容的能力。通过使用相关学习层,有益的知识可以在任务之间传递或共享,从而通过重用它们的相似性来提高性能,使多个相关任务能够同时进行。
收稿日期:2019年10月20日;修订日期:2020年3月9日和2020年5月24日;接受日期:2020年7月26日。发表日期:2020年9月3日;当前版本日期:2022年5月19日。本工作部分受中国广东自然科学基金(Grant 2018A030313070)、国家科技部国家重点研发计划(Grant 2018AAA0101301)和中国自然科学基金(Grant 61871273)资助。这篇文章由副编辑推荐。
罗建平和陈亮隶属于深圳大学智能信息处理广东省重点实验室,中国深圳市518060,同时也隶属于深圳大学电子与信息工程学院媒体安全深圳市重点实验室,中国深圳市518060(电子邮件:ljp@szu.edu.cn)。
李霞隶属于深圳大学电子与信息工程学院高级通信与信息处理深圳市重点实验室,中国深圳市518060(电子邮件:lixia@szu.edu.cn)。
张清夫隶属于香港城市大学计算机科学系,中国香港,同时也隶属于香港城市大学深圳研究院,中国深圳市518057(电子邮件:qingfu.zhang@cityu.edu.hk)。
本文由作者提供了补充资料和一份或多份图的彩色版本,可从https://doi.org/10.1109/TCYB.2020.3014126获取。
数字对象标识符(DOI)10.1109/TCYB.2020.3014126
我们工作的主要贡献如下。
-
我们提出了一种基于多任务CNP(MTCNP)的贝叶斯优化框架,其中将高斯过程替换为条件神经过程网络作为代理模型,用于有效解决一组相关的优化问题。据我们所知,这是第一个基于CNP网络的多任务模型。
-
我们提出使用相关层来学习不同问题之间的相关性。该层能够更好地学习不同复杂问题之间的非线性相关性。
-
基于提出的一对多MTCNP(OMc-MTCNP)模型,我们提出了多对多MTCNP(MMc-MTCNP)模型,可以有效减少评估和计算成本所需的数据点数量。我们为MMc-MTCNP开发了不同的训练方法。
-
在多种场景上进行的实验研究表明,我们提出的算法与基于高斯过程、单任务以及其他多任务模型的贝叶斯优化方法相比表现良好。
本文其余部分组织如下。第二部分讨论相关技术,包括BOAs、高斯过程、CNP网络和多任务学习。第三部分介绍了提出的多任务代理模型及其在BOA框架中的应用。第四部分呈现了实验研究。第五部分总结本文并提供可能的未来工作。
II. 相关工作
A. BOA
BOA是成功的昂贵优化方法[41]。这些方法是为了使用少量函数评估来找到黑匣子函数
B.GP用于贝叶斯优化的代理模型
在高斯过程建模中,函数值
算法1 贝叶斯优化
1:为目标函数
从搜索空间
对于
3:最大化收获函数以找到新的测试点:
4:评估目标函数
5:将新评估数据添加到
6:使用
结束循环。
8:输出找到的最佳解决方案。
设
对于
其中
C.EI 收获函数
Bayesian 优化算法通过最大化收获函数 [15]-[17] 来迭代地生成函数评估的候选点。在本研究中,我们使用 EI 函数 [15] 作为收获函数,它能平衡开发和探索。对于一个新的点
Lizotte [15] 建议设定
D. 多任务学习
在优化过程中,经常会遇到问题,例如小数据集、强嘈杂和高维度。多任务学习有效地增加训练示例,并使模型能够消除干扰,以有效地学习相关任务的基本内容 [18]。由于不同类型的噪声,训练中的泛化性能可以得到改善。此外,每个任务还可以学习不同的特征,因为通过多任务模型,采样数据集的特性和其他任务可以获取额外的特征。多任务学习已成功应用于不同场景 [19]-[24]。方法,比如低秩方法 [25];任务聚类方法 [26], [27];任务相关学习方法 [28];Dirty 方法 [29];以及多级方法 [30],使用模型参数来关联不同任务的学习。其他方法,如特征转换方法 [31], [32];特征选择方法 [33], [34];以及深度学习方法 [35], [36],将每个任务的特征以线性或非线性方式转移到其他任务。在 [18] 和 [21] 中,提出了共享底部多任务结构。在这些结构中,所有任务共享底部结构以实现多任务之间的信息共享的目的。
有几个模型与本研究中提出的多任务模型类似。目前多任务学习方法常用的框架可以总结为
其中
E.
深度神经网络在拟合函数方面表现出色。CNP [40] 结合了随机过程和神经网络的特征。CNP学习已知观察结果的过程由神经网络参数化。此外,CNP通过随机抽样数据集并遵循梯度下降算法进行训练,以最大化条件概率。CNP的优势在于可以通过神经网络从数据中获取分布信息。

图 1. CNP。
设有
给定
其中
MTCNPs
输入:每个点的维数
评估点的数量
相关任务的数量
最大迭代次数
第
输出:所有任务的最佳解
1: 生成均匀分布集合:
2: 生成初始值:
3: 对于
4: 设定
其中
5: 使用
以获得MTCNPs模型。
6: 使用粒子群优化器(PSO)寻找
所有任务的最有潜力解
7: 评估所有任务的实际函数值
8: 增广
9: 结束循环
10: 返回最佳结果:
CNP 随机选择子集
III. 提议的模型
A. 框架
我们在方法中结合了多个相关任务来同时解决问题,并对任务之间的相关性程度进行建模。在 MTCNPs 方面,我们提出的模型旨在通过特定的网络结构和损失函数学习任务之间的相关性,其中每一层将学到的信息传播到整个网络中。随着数据量的增加,任务之间的相关性会实时更新。
我们将 MTCNPs 应用于贝叶斯优化框架。如算法 2 所示,MTCNP 网络是用观测

图 2. MTCNPs。 (a) OMc-MTCNPs。 (b) MMc-MTCNPs
B. MTCNPs
CNPs 通过参数化具有强大表示和学习能力的神经网络来替代函数上的条件分布。因此,不需要关注数据的先前分布类型,而是需要关注设计良好的网络结构和特殊的损失函数。我们通过将多任务学习和 CNPs 结合设计了 MTCNPs。本研究提出的 MTCNPs 通过相关性学习层内部化任务相关性。有益的信息可以通过此相关性层在任务之间传递或共享。此外,每个任务使用由相关任务的训练信号所拥有的领域特定信息作为增强每个任务泛化性能的归纳偏差。此外,信息共享扩大了数据量,以提高模型训练的准确性,因为任务之间存在关联。
在本研究中,我们提出了两种 MTCNP 模型:1) OMc-MTCNP,如图 2(a) 所示,2) MMc-MTCNP,如图 2(b) 所示。请注意,相关性层
如图 2 所示,每个 CNP 都用于不同的任务。我们将多个 CNP 模型组合在输出层和相关网络层
C. OMc-MTCNP
如图2(a)所示,OMc-MTCNP中每个任务的训练数据采样点相同。 我们设置
因此,我们可以最小化负条件对数概率
其中
如图3所示,我们同时训练多任务模型的每个CNP与相应的训练数据集。 每个CNP模型可以独立于其他任务学习数据集的特征。 在指定的损失函数下,我们将所有任务合并为整体进行训练。 每个CNP模型的参数被更新,并且不同任务的信息被分配到每个CNP模型的参数。 与此同时,相关网络层

图3. OMc-MTCNP中的训练(更新虚线相关参数)。

图4. OMc-MTCNP中数据增强策略。

图5. MMc-MTCNP中的数据增强策略。
在预测过程中,当将新点
D. MMc-MTCNPs
OMc-MTCNP的一个缺点是样本点

图 6.
如图2(b)所示,MMc-MTCNP中的
-
MMc-MTCNP的训练模式 1(C1):在每次迭代中,所有数据集
需要依次进行训练。第 个观察 被假定仅与第 个任务相关。因此,我们只更新第 个任务的参数以及与第 个任务输出相关的 的参数。如图6所示,我们展示了模型通过 进行训练,即任务1的训练数据 。在这种情况下,仅更新虚线中的参数,即 的参数和连接到任务1的第 层的相关系数。接下来,模型通过任务2的训练数据 进行训练。然后,更新第 的参数以及连接到任务2的相关系数。当所有 都训练完毕后,模型中的每个CNP的参数将被更新以学习各自数据的特征。此外,由所有相关系数组成的第 层可以表示任务之间的相关性。在预测阶段,我们将相同的点 输入到每个任务中, 和 是模型中第 个任务的最终输出。我们使用PSO通过使用这些输出找到第 个任务的下一个评估点。 -
MMc-MTCNP的训练模式 2(C2):在每次迭代中,所有数据集
需要依次进行训练。与 模式相反,对于训练数据 ,所有任务的CNP参数以及与第 个任务输出相关的 的参数都会更新。图7展示了模型通过 进行训练时需要更新的输入和虚线中的参数。当所有数据集 都训练完毕后,每个任务的信息不再由单个CNP表示,而是由所有CNP的参数表示。相关的第 层能够有效提取所有CNP的优势以对最终输出产生贡献。预测阶段设置与 模式相同。

图 7.
这些培训模式之间的主要区别在于 CNP 更新。就不同任务的训练数据而言,方法
与传统的多任务学习网络相比,提出的网络添加了一个相关性层
IV. 实验和讨论
我们使用 2、3 和 4 维(D)函数优化基准问题来模拟昂贵的优化问题。此外,我们还处理实验中的超参数调整问题。对于函数优化问题,任务之间的相关性包括线性和非线性情况。
A. 基线
我们将提出的 MTCNP 模型与 BOA 框架中的几种其他模型或方法进行比较。
GP 模型:在 BOA 框架中,代理模型基于单个 GP。
CNP 模型:在 BOA 框架中,代理模型基于单个 CNP。
RMLA 方法:我们使用了正则多任务学习模型 (RMLA) [54] 评估 BOAs,该模型假设所有任务的模型参数彼此接近。通过移除相关层并向损失函数中添加正则化惩罚项,OMc-MTCNP 模型在本研究中变为 RMLA 模型。
基于 Cross-Stitch [37] 的方法:这种方法通过使用由固定大小可训练矩阵组成的“Cross-Stitch” 单元在两个任务之间共享信息。Cross-Stitch 单元汇总每个任务的输入,并通过线性变换产生相应任务的输出。当 OMc-MTCNP 的相关性层由 Cross-Stitch 单元替换时,OMc-MTCNP 模型在我们的实验中变为基于 Cross-Stitch 的模型。
表 I
不同 MTCNP 网络的架构细节
OMc-MTCNPs | MMc-MTCNPs | ||
---|---|---|---|
C1 | C2 | ||
训练过程(Mtasks) | 同时训练多任务模型的每个CNP与相应的训练数据集。更新所有CNP的参数和相关层网络。 | 对于第 | 对于第 |
评估点(样本点) | 所有任务具有相同的评估点。 | 每个任务的评估点不同。 | |
每次迭代增加训练集数据的策略 | 添加 | 仅将点 | |
每次迭代昂贵函数的评估次数 | M |
表II
测试函数
函数 | 函数表达式 | 解空间 | D | 最优解 |
---|---|---|---|---|
Ackley | 2 | 0 | ||
3 | 0 | |||
4 | 0 | |||
Rastrigin | 2 | 0 | ||
3 | 0 | |||
4 | 0 | |||
Schwefel | 2 | -8.3797E+02 | ||
3 | -1.2569E+03 | |||
4 | -1.6759E+03 | |||
Michalewicz | 2 | -1.1573E+00 | ||
3 | -1.4963E+00 | |||
4 | -1.6821E+00 |
B. 参数设置
为了公平比较,所有算法的评估点数量相同,所有算法的迭代次数设定为100次。对于PSO,我们将初始标准设置为种群大小
C. 带有任务线性相关性的函数优化
在本节中,我们对具有任务线性相关性的函数优化问题进行实验。
1)实验设置:如表II所示,我们选择四个基准函数来模拟实际复杂问题。这些函数经常用于评估优化算法的性能,具有大量局部最小值和不同的分布特征。因此,我们使用这些函数来测试所提出算法的有效性。
在任务线性相关性实验中,我们设置了两组实验,一组有噪声,一组没有噪声。在无噪声实验中,我们按照比率
表III
翻译 private_upload\default_user\2024-10-20-21-26-26\2-Novel_Multitask_Conditional_Neural-Network_Surrogate_Models_for_Expensive_.pdf-2024-10-20 21-24-12.md.part-11.md
2-D基准问题的统计结果比较(任务之间的线性相关,100次迭代)
问题 | 任务 | GPs | CNPs | RMLA | OMc-MTCNPs | C1 | C2 |
---|---|---|---|---|---|---|---|
F1 | 1 | 5.3740E-01 (1.6073E-02) | 8.2672E-02 (1.2448E-03) | 1.2281E-02 (8.2580E-04) | 4.3581E-02 (3.5072E-03) | 3.6618E-02 (2.6015E-03) | 5.7574E-03 (2.9910E-04) |
2 | 5.4690E-01 (1.3673E-02) | 6.9277E-02 (5.7359E-03) | 1.0335E-02 (7.6130E-04) | 3.2019E-02 (2.1401E-03) | 5.6424E-02 (1.3619E-03) | 6.1287E-03 (3.0410E-04) | |
3 | 5.6060E-01 (1.4632E-02) | 8.5403E-02 (6.3166E-03) | 1.0893E-02 (8.4580E-04) | 3.3326E-02 (2.1726E-03) | 3.4219E-02 (3.2079E-03) | 5.9854E-03 (2.7140E-04) | |
F2 | 1 | 6.8300E-01 (4.8249E-02) | 1.5700E-02 (2.6555E-03) | 7.9721E-02 (3.9621E-03) | 3.8100E-04 (4.4300E-05) | 5.2400E-03 (6.9930E-04) | 1.7500E-03 (1.6000E-04) |
2 | 7.5000E-01 (3.4569E-02) | 5.5700E-03 (4.8420E-04) | 7.3345E-02 (3.8820E-03) | 3.7300E-04 (4.3400E-05) | 9.8900E-03 (1.6838E-03) | 9.9400E-04 (1.4470E-04) | |
3 | 5.8500E-01 (3.8484E-02) | 1.4700E-03 (1.7850E-04) | 8.1378E-02 (4.0413E-03) | 3.8800E-04 (4.5200E-05) | 9.9000E-04 (6.3100E-05) | 1.1000E-03 (1.4420E-04) | |
F3 | 1 | 1.8597E+02 (6.5600E+00) | 2.2197E+02 (9.6700E+00) | 9.7970E+01 (5.7600E+01) | 7.5970E+01 (7.3400E+01) | 9.3970E+01 (7.7800E+00) | 2.5970E+01 (1.9300E+01) |
2 | 1.9021E+02 (7.3100E+00) | 2.5621E+02 (6.7700E+00) | 9.6211E+01 (5.6500E+01) | 7.4211E+01 (7.1900E+01) | 1.5421E+02 (7.1400E+00) | 4.6211E+01 (2.2700E+01) | |
3 | 1.2873E+02 (9.9200E+00) | 2.3573E+02 (4.5600E+01) | 9.9729E+01 (5.8800E+01) | 6.6729E+01 (7.4900E+01) | 7.2729E+01 (6.9700E+01) | 4.2729E+01 (2.5400E+01) | |
F4 | 1 | 6.5910E-02 (6.4816E-02) | 1.2190E-03 (1.8360E-03) | 3.1800E-04 (3.4200E-04) | 3.0000E-04 (3.6300E-04) | 5.7830E-03 (2.6860E-03) | 1.1420E-03 (8.8500E-04) |
2 | 6.5847E-02 | 1.9310E-03 | 3.1200E-04 | 2.7400E-04 | 1.9870E-03 | 1.1975E-03 | |
(7.7438E-02) | (7.5500E-04) | (3.3500E-04) | (3.5800E-04) | (2.0670E-03) | (9.3900E-04) | ||
3 | 1.3347E-02 | 1.3340E-03 | 3.2800E-04 | 2.4600E-04 | 3.0770E-03 | 8.6040E-04 | |
(1.5379E-02) | (8.0100E-04) | (3.4900E-04) | (3.7100E-04) | (1.3270E-03) | (1.8628E-02) |
TABLE IV
2-D噪声问题的统计结果比较(任务之间的线性相关,100次迭代)
项目 | 任务 1 | GPs 5.5898E-02 | CNPs 1.1549E-01 | RMLA 1.9896E-02 | OMc-MTCNPs 8.3678E-02 | C1 9.4935E-02 | C2 8.1742E-02 |
---|---|---|---|---|---|---|---|
F1 | 2 | (1.4283E-03) | (8.3230E-03) | (6.2080E-04) | (2.8060E-03) | (4.2628E-03) | (1.6971E-03) |
4.9506E-02 | 1.0353E-01 | 2.0596E-02 | 8.0283E-02 | 7.8020E-02 | 9.3439E-02 | ||
(2.3216E-03) | (1.8705E-03) | (4.4510E-04) | (5.2390E-03) | (1.5240E-03) | (7.7540E-03) | ||
3 | 6.8469E-02 | 1.1020E-01 | 2.6576E-02 | 8.4984E-02 | 4.8445E-02 | 8.4941E-02 | |
(1.3077E-03) | (1.3836E-03) | (8.6990E-04) | (2.4090E-03) | (4.3676E-03) | (3.3845E-03) | ||
F2 | 1 2 | 7.0000E-02 | 8.7779E-02 | 2.5358E-02 | 8.3513E-02 | 1.0207E-01 | 7.2781E-02 |
(3.9130E-03) | (3.5100E-03) | (2.5422E-03) | (3.5700E-03) | (4.0800E-03) | (2.9012E-03) | ||
7.0800E-02 | 8.5159E-02 | 1.8771E-02 | 7.8421E-02 | 1.0168E-01 | 7.5424E-02 | ||
(2.1699E-03) | (2.3600E-03) | (1.4220E-03 | (4.2400E-03) | (1.0650E-03) | (3.0739E-03) | ||
3 | 9.9300E-02 | 8.2815E-02 | 2.2231E-02 | 7.9841E-02 | 9.1553E-02 | 7.5664E-02 | |
(4.3376E-03) | (5.7100E-03) | (1.9502E-03) | (2.6400E-03) | (9.4400E-04) | (3.1182E-03) | ||
F3 | 1 2 | 1.5897E+02 | 1.5497E+02 | 1.2197E+02 | 5.3970E+01 | 1.0197E+02 | 1.1797E+02 |
(4.9300E+01) | (4.1100E+00) | (9.3300E+00) | (3.1090E+01) | (3.8000E+00) | (7.3000E+00) | ||
1.0521E+02 | 1.3421E+02 | 1.1921E+02 | 4.0211E+01 | 9.8211E+01 | 6.1211E+01 | ||
(7.8700E+00) | (4.7100E+00) | (9.3500E+00) | (3.0090E+01) | (4.0900E+01) | (9.3000E+00) | ||
3 | 1.2273E+02 | 1.3973E+02 | 1.2473E+02 | 4.2729E+01 | 5.9729E+01 | 1.2473E+02 | |
(5.9500E+01) | (4.0000E+00) | (9.7700E+00) | (2.9720E+01) | (2.7100E+01) | (6.7000E+00) | ||
F4 | 1 2 | 1.2491E-01 | 9.0668E-02 | 8.6079E-02 | 8.6873E-02 | 9.6461E-02 | 8.9587E-02 |
(3.4151E-02) | (3.9520E-03) | (2.7810E-03) | (2.1490E-03) | (7.0450E-03) | (4.9090E-03) | ||
1.2877E-01 | 8.8171E-02 | 8.4130E-02 | 8.1017E-02 | 9.8033E-02 | 8.4243E-02 | ||
(2.7877E-02) | (5.3650E-03) | (5.3620E-03) | (5.9650E-03) | (6.0230E-03) | (4.6540E-03) | ||
3 | 1.4859E-01 | 9.1238E-02 | 8.6195E-02 | 8.5089E-02 | 9.5685E-02 | 8.2548E-02 | |
(8.4835E-02) | (4.9420E-03) | (3.9720E-03) | (1.0380E-03) | (6.4440E-03) | (4.8590E-03) |
-
在没有噪声的问题上的实验结果:表格 III 展示了没有噪声的二维函数的均值和标准差。总体而言,相比于高斯过程,基于协变网络的模型在
和 上表现更好,但在 上稍逊于高斯过程。此外,相比于单任务模型(高斯过程和协变网络),多任务协变网络模型的结果通常有所改善。在 上, 的结果优于其他算法。此外, 在 和 上的结果与 OMc-MTCNP 相近。因此,与 OMc-MTCNP 相比, 的性能非常出色,尽管需要更少的真实函数评估。所有算法在 上均能找到最优解附近。然而,本研究提出的多任务模型在准确性方面比其他模型更有优势。在大多数情况下,OMc-MTCNP 的性能略优于 模型。主要原因在于 OMc-MTCNP 使用的函数评估次数比其他模型多。此外,提出的多任务协变网络模型在大多数情况下优于或类似于 RMLA,除了 。这证明了所提出的方法在性能上与当前主流的多任务模型具有竞争力。3-D 和 4-D 问题的结果详见补充资料。 -
在存在噪声的问题上的实验结果:我们讨论 MTCNP 模型解决带噪声函数的优化能力。表 IV 和表 V 分别描述了二维和四维噪声问题的测试结果。三维问题的结果放在补充材料中。本研究中提出的三种 MTCNP 模型在二维噪声问题上的性能相互之间相似,且均优于两种单任务模型。在四维噪声函数测试结果中,OMc-MTCNP 可以在
问题的三个任务上找到最佳近似最优解。同时, 和 在 和 问题上均取得最佳结果。与二维问题相比,单任务模型在 和 上以及建议的多任务模型之间的改进更为显著。单任务模型在这些问题上随着维度增加表现更差。相比之下,由于问题复杂度的增加和噪声的影响,提出的多任务模型的结果并没有因问题复杂度增加而变差。与 RMLA 算法相比,我们的算法在大多数四维示例上表现更好。需要注意的是,与 OMc-MTCNP 类似,RMLA 使用更多函数评估次数,尽管它们具有相同的迭代次数。
任务 | GPs | CNPs | RMLA | OMc-MTCNPs | C1 | C2 | |
---|---|---|---|---|---|---|---|
F1 | 1 2 | 1.0229E-01 | 2.6512E-01 | 1.6734E-01 | 1.5068E-02 | 6.9111E-02 | 3.3562E-02 |
(1.2680E-03) | (2.2841E-03) | (5.2223E-03) | (1.1540E-03) | (2.4139E-03) | (1.0666E-03) | ||
1.0849E-01 | 3.4728E-01 | 1.6421E-01 | 1.4488E-02 | 4.3944E-02 | 4.2162E-02 | ||
(1.6696E-03) | (2.6156E-02) | (5.0467E-03) | (1.0420E-03) | (3.4207E-03) | (1.9975E-03) | ||
3 | 1.1544E-01 | 3.6130E-01 | 1.7056E-01 | 1.5271E-02 | 7.5228E-02 | 3.0432E-02 | |
(1.6596E-03) | (2.7060E-02) | (5.3245E-03) | (1.6620E-04) | (1.9063E-03) | (1.2550E-03) | ||
F2 | 1 2 3 | 1.9300E-01 | 5.0952E-01 | 1.0257E-01 | 2.1082E-01 | 7.6825E-02 | 3.5567E-02 |
(9.2785E-03) | (5.0700E-03) | (2.3479E-03) | (1.5314E-02) | (5.2345E-03) | (9.1600E-04) | ||
3.1200E-01 | 5.0106E-01 | 1.0158E-01 | 1.2959E-01 | 1.1502E-01 | 3.6141E-02 | ||
(7.6505E-03) | (4.6900E-03) | (2.3899E-03) | (3.9990E-03) | (8.8600E-03) | (5.3200E-04) | ||
2.5800E-01 | 5.2143E-01 | 1.0338E-01 | 1.3477E-01 | 1.0118E-01 | 3.8259E-02 | ||
(5.9557E-03) | (5.7000E-03) | (2.3036E-03) | (4.1240E-03) | (9.5341E-03) | (6.5700E-04) | ||
F3 | 1 | 7.1590E+02 | 7.7290E+02 | 9.4290E+02 | 5.9590E+02 | 5.8590E+02 | 6.3590E+02 |
(1.3370E+01) | (9.6150E+00) | (2.5000E+01) | (4.3500E+01) | (7.3500E+01) | (8.0800E+01) | ||
2 | 7.0238E+02 | 7.3638E+02 | 9.2538E+02 | 5.9238E+02 | 5.6238E+02 | 7.1338E+02 | |
(1.3150E+01) | (8.0660E+01) | (2.4400E+01) | (4.2100E+01) | (9.0100E+01) | (7.1500E+01) | ||
3 | 7.2942E+02 | 7.9042E+02 | 9.6142E+02 | 6.0942E+02 | 7.2442E+02 | 7.3242E+02 | |
(1.3670E+01) | (9.9140E+00) | (2.3400E+01) | (4.3300E+01) | (6.6500E+01) | (3.5400E+01) | ||
F4 | 1 2 | 3.7756E-01 | 4.6275E-01 | 2.9868E-01 | 2.0053E-01 | 4.4046E-01 | 3.5089E-01 |
(1.0067E-01) | (1.7028E-02) | (1.2949E-02) | (5.1556E-02) | (7.2314E-02) | (4.2367E-02) | ||
5.6934E-01 | 4.6241E-01 | 2.9466E-01 | 2.0505E-01 | 4.0126E-01 | 3.1484E-01 | ||
(1.3171E-02) | (1.6464E-02) | (1.4732E-02) | (5.8189E-02) | (3.7856E-02) | (3.2326E-02) | ||
3 | 4.5982E-01 | 4.7271E-01 | 3.0944E-01 | 2.0607E-01 | 4.5450E-01 | 3.0553E-01 | |
(5.0421E-02) | (1.7669E-02) | (1.3695E-02) | (6.2952E-02) | (6.6295E-02) | (6.3261E-02) |
表VI
3-D问题的统计结果比较(任务之间的非线性相关性,100次迭代)
专业 | 任务 | GPs | CNPs | RMLA | 基于Cross-Stitch的方法 | OMc-MTCNPs | C1 | C2 |
---|---|---|---|---|---|---|---|---|
F1 | 1 | 8.36E-01 (2.60E-02) | 1.80E-01 (1.72E-02) | 2.54E-01 (2.76E-03) | 2.07E-01 -6.57E-04 | 1.16E-01 (1.38E-03) | 9.21E-02 (4.16E-03) | 1.20E-01 (7.28E-03) |
2 | 9.24E-01 (2.68E-03) | 2.61E-01 (3.65E-03) | 2.20E-01 (3.66E-03) | 2.01E-01 (1.95E-03) | 1.19E-01 (3.67E-03) | 1.06E-01 (6.28E-03) | 1.23E-01 (6.69E-03) | |
3 | 1.05E+00 (3.53E-03) | 1.86E-01 (1.03E-02) | 2.35E-01 (7.62E-03) | 2.08E-01 (1.54E-03) | 1.21E-01 (1.09E-03) | 1.16E-01 (4.37E-03) | 1.16E-01 (2.00E-03) | |
F2 | 1 | 9.17E-01 (6.71E-02) | 4.45E-01 (3.10E-02) | 2.50E-01 (3.82E-03) | 3.11E-01 (9.14E-03) | 1.32E-01 (1.02E-02) | 1.27E-01 (6.41E-03) | 1.19E-01 (9.36E-03) |
2 | 1.04E+00 (2.94E-02) | 2.36E-01 (2.75E-04) | 2.73E-01 (5.93E-03) | 3.46E-01 (9.87E-03) | 1.26E-01 (1.07E-02) | 9.78E-02 (1.18E-02) | 1.23E-01 (1.25E-02) | |
3 | 7.86E-01 (4.48E-02) | 3.40E-01 (9.13E-03) | 2.22E-01 (5.28E-03) | 3.46E-01 (1.03E-02) | 1.28E-01 (1.05E-02) | 9.67E-02 (3.60E-03) | 1.53E-01 (9.36E-03) | |
F3 | 1 | 8.71E+02 (1.28E+01) | 9.31E+02 (1.11E+01) | 6.31E+02 (1.63E+01) | 6.71E+02 (1.20E+01) | 5.61E+02 (1.21E+01) | 5.61E+02 (6.25E+01) | 5.81E+02 (4.57E+00) |
2 | 9.01E+02 | 9.71E+02 | 6.41E+02 | 6.51E+02 | 5.31E+02 | 5.61E+02 | 5.51E+02 | |
(7.70E+01) | (8.22E+00) | (1.51E+01) | (1.21E+01) | (1.19E+01) | (4.21E+01) | (5.06E+01) | ||
3 | 9.21E+02 (6.32E+01) | 9.41E+02 (1.14E+01) | 6.11E+02 (1.82E+01) | 7.11E+02 (1.25E+01) | 5.81E+02 (1.26E+01) | 6.21E+02 (3.26E+01) | 6.11E+02 (2.32E+01) | |
F4 | 1 | 4.58E-01 (1.12E-01) | 2.11E-01 (4.67E-02) | 1.51E-01 (9.65E-03) | 2.21E-01 (6.67E-03) | 1.51E-01 (5.57E-03) | 2.11E-01 (3.54E-02) | 1.41E-01 (4.24E-02) |
2 | 2.49E-01 (1.59E-02) | 1.89E-01 (5.53E-02) | 1.59E-01 (1.07E-02) | 1.59E-01 (8.19E-03) | 1.39E-01 (6.27E-03) | 1.89E-01 (2.71E-03) | 1.29E-01 (2.56E-02) | |
3 | 5.83E-01 (1.11E-01) | 2.79E-01 (1.26E-01) | 1.49E-01 (1.04E-02) | 3.19E-01 (4.48E-03) | 1.49E-01 (6.23E-03) | 1.39E-01 (1.44E-02) | 1.49E-01 (2.12E-02) |
基于这些结果,在测试低维问题时,单任务模型可以找到一个相对满意的近似最优解。同时,大多数情况下,多任务模型优于单任务模型。当问题的维度增加或添加噪声时,单任务模型的结果变得更糟。相比之下,多任务模型可以消除干扰并获得更好的结果。因此,提出的多任务模型对同时处理多个相关任务非常有效。
表 VII
在4-D问题上的统计结果比较(任务之间的非线性相关性,100次迭代)
翻译 private_upload\default_user\2024-10-20-21-26-26\2-Novel_Multitask_Conditional_Neural-Network_Surrogate_Models_for_Expensive_.pdf-2024-10-20 21-24-12.md.part-16.md
性质 | 任务 | GPs | CNPs | RMLA | 基于十字花的方法 | OMc-MTCNPs | C1 | C2 |
---|---|---|---|---|---|---|---|---|
F1 | 1 | 1.34E+00 (1.27E-01) | 5.79E-01 (1.79E-02) | 2.79E-01 (9.13E-04) | 3.45E-01 (2.06E-03) | 3.13E-02 (8.55E-04) | 1.68E-01 (6.76E-03) | 2.09E-01 (5.62E-03) |
2 | 1.20E+00 (1.16E-02) | 5.67E-01 (7.67E-04) | 2.48E-01 (2.20E-03) | 3.48E-01 (4.92E-03) | 3.28E-02 (5.16E-04) | 1.46E-01 (6.52E-03) | 2.27E-01 (5.57E-03) | |
3 | 1.02E+00 (1.02E-02) | 5.38E-01 (4.16E-02) | 2.48E-01 (5.63E-03) | 3.43E-01 (2.56E-03) | 3.11E-02 (1.30E-03) | 1.53E-01 (5.55E-03) | 2.29E-01 (3.22E-03) | |
F2 | 1 | 3.51E-01 (2.01E-02) | 4.76E-01 (5.94E-02) | 1.64E-01 (2.92E-03) | 2.21E-01 (3.25E-03) | 1.30E-01 (5.26E-03) | 1.22E-01 (2.78E-03) | 1.13E-01 (5.11E-03) |
2 | 3.88E-01 (1.26E-03) | 5.50E-01 (9.92E-03) | 2.13E-01 (4.38E-03) | 2.32E-01 (6.99E-03) | 1.28E-01 (6.98E-03) | 1.24E-01 (5.31E-03) | 1.16E-01 (6.32E-03) | |
3 | 4.22E-01 (2.69E-03) | 4.63E-01 (1.34E-02) | 2.23E-01 (1.77E-02) | 2.42E-01 (1.69E-02) | 1.26E-01 (4.37E-03) | 1.35E-01 (3.54E-03) | 9.89E-02 (7.43E-03) | |
F3 | 1 | 1.43E+03 (1.52E+01) | 1.62E+03 (1.25E+01) | 1.42E+03 (1.12E+01) | 1.35E+03 (1.12E+01) | 1.14E+03 (1.80E+01) | 1.03E+03 (1.50E+01) | 1.29E+03 (2.10E+01) |
2 | 1.45E+03 (1.16E+01) | 1.63E+03 (9.91E+00) | 1.36E+03 (1.09E+01) | 1.35E+03 (1.09E+01) | 1.17E+03 (1.75E+01) | 1.25E+03 (1.61E+01) | 1.31E+03 (2.08E+01) | |
3 | 1.61E+03 (1.23E+01) | 1.55E+03 (1.47E+01) | 1.40E+03 (1.29E+01) | 1.35E+03 (1.29E+01) | 1.12E+03 (1.84E+01) | 9.66E+02 (5.39E+01) | 1.28E+03 (2.15E+01) | |
F4 | 1 | 5.30E-01 (1.43E-02) | 4.80E-01 (2.09E-02) | 1.20E-01 (3.70E-02) | 2.98E-01 (3.70E-02) | 1.10E-01 (3.43E-02) | 1.70E-01 (1.40E-02) | 1.60E-01 (1.16E-02) |
2 | 4.70E-01 | 4.40E-01 | 1.10E-01 | 3.13E-01 | 9.00E-02 | 1.40E-01 | 1.00E-01 | |
(8.37E-02) | (1.18E-01) | (3.75E-02) | (3.75E-02) | (3.24E-02) | (1.62E-02) | (1.57E-02) | ||
3 | 6.50E-01 | 5.30E-01 | 1.10E-01 | 3.81E-01 | 9.00E-02 | 2.50E-01 | 2.70E-01 | |
(5.48E-02) | (1.21E-02) | (4.03E-02) | (4.03E-02) | (3.46E-02) | (1.54E-02) | (4.01E-02) |
D. 具有任务之间非线性相关性的函数优化
在本节中,我们对具有任务之间非线性相关性的函数优化问题进行实验。
-
实验设置: 参考[38],我们为每个基准测试函数设置了三个任务,如下所示: 1) 任务 1:
任务 2: ; 和 3) 任务 3: ,其中 是表 II 中展示的基准函数。 , 和 。在这一部分,我们扩展了图2中所示的MTCNPs的相关层。也就是说,我们在图2所示的相关层前面插入了一个具有sigmoid激活函数的新的全连接层,节点数量等于任务数量。因此,在这种情况下,MTCNPs的相关层由相同大小的两个全连接层组成。我们将MTCNP模型与GP、CNPs、RMLA和基于cross-stitch的方法进行比较,以测试具有任务之间非线性相关性的函数优化问题。 -
实验结果: 实验结果如表VI和表VII所示。我们可以从表中得到以下一些观察结果。
-
总体而言,CNPs 和 GPs 表现相似;因此,在本研究中用 CNPs 替代 GPs 是合理的。
-
提出的多任务模型胜过单任务模型(CNPs 和 GPs);这证实了我们的多任务模型能够通过提取任务之间的相关性有效处理多个相关问题。

图8. 使用不同算法在F3上的任务1的平均收敛曲线。
-
在某些情况下,基于两个MTCNP模型的RMLA和基于cross-stitch的方法甚至比单任务模型CNPs表现更差。这主要是因为传统多任务学习模型的性能高度依赖于数据中的内在任务相关性,在本实验中设计的任务并非严格线性相关。
-
我们的MTCNPs模型比RMLA和基于cross-stitch的方法表现更好。这是合理的,因为我们的MTCNPs模型的相关层包含激活函数,有助于处理任务之间的非线性相关性问题。
-
OMc-MTCNP 在大多数情况下略优于
和 模型。主要原因是 OMc-MTCNP 比 和 模型使用更多的函数评估。然而,在每个点处的每个任务都在训练数据中进行了评估的应用场景中,OMc-MTCNP比 和 能够获得更好的结果。
表VIII
LENET-5的结果(100次迭代)
翻译 private_upload\default_user\2024-10-20-21-26-26\2-Novel_Multitask_Conditional_Neural-Network_Surrogate_Models_for_Expensive_.pdf-2024-10-20 21-24-12.md.part-18.md
问题 | 任务 | GPs | CNPs | RMLA | OMc-MTCNPs | C1 | C2 |
---|---|---|---|---|---|---|---|
LeNet-5与MNIST(Q1) | 1 | 0.9843(8.43E-04) | 0.9859(8.38E-04) | 0.9862(3.21E-04) | 0.9863(6.42E-04) | 0.9863(3.63E-07) | 0.9862(3.10E-07) |
2 | 0.9851(8.31E-04) | 0.9864(1.00E-03) | 0.9862(2.92E-04) | 0.9860(8.94E-04) | 0.9866(1.90E-07) | 0.9869(2.52E-07) | |
3 | 0.9849(9.43E-04) | 0.9862(7.76E-04) | 0.9861(2.45E-04) | 0.9862(7.09E-04) | 0.9867(1.62E-07) | 0.9867(1.60E-07) | |
LeNet-5与MNIST(Q2) | 1 | 0.9833(8.72E-04) | 0.9833(8.72E-04) | 0.9843(5.26E-04) | 0.9862(1.23E-03) | 0.9864(4.03E-07) | 0.9859(2.90E-07) |
2 | 0.9827(7.81E-04) | 0.9827(7.81E-04) | 0.9844(6.23E-04) | 0.9861(8.00E-04) | 0.9860(2.50E-07) | 0.9865(4.72E-07) | |
3 | 0.9831(7.00E-04) | 0.9831(7.00E-04) | 0.9844(4.57E-04) | 0.9860(9.22E-04) | 0.9859(6.40E-07) | 0.9862(1.10E-07) | |
LeNet-5与Fashion-MNIST(Q1) | 1 | 0.8753(6.94E-06) | 0.9859(8.38E-04) | 0.9862(7.25E-04) | 0.9861(6.42E-04) | 0.9863(3.63E-07) | 0.9862(3.10E-07) |
2 | 0.8757(2.49E-06) | 0.9864(1.00E-03) | 0.9861(4.81E-04) | 0.9862(8.94E-04) | 0.9866(1.90E-07) | 0.9869(2.52E-07) | |
3 | 0.8749(5.93E-07) | 0.9862(7.76E-04) | 0.9863(5.09E-04) | 0.9862(7.09E-04) | 0.9868(1.62E-07) | 0.9867(1.60E-07) | |
LeNet-5与Fashion-MNIST(Q2) | 1 | 0.8743(9.45E-06) | 0.9833(8.72E-04) | 0.9841(5.20E-04) | 0.9862(1.23E-03) | 0.9864(4.03E-07) | 0.9859(2.90E-07) |
2 | 0.8739(4.84E-07) | 0.9827(7.81E-04) | 0.9842(8.12E-04) | 0.9861(8.00E-04) | 0.9862(2.50E-07) | 0.9865(4.72E-07) | |
3 | 0.8737(2.56E-06) | 0.9831(7.00E-04) | 0.9839(6.44E-04) | 0.9862(9.22E-04) | 0.9859(6.40E-07) | 0.9864(1.10E-07) |
图8显示了在
E.神经网络的超参数调整
解决深度神经网络合理超参数组合的问题,即超参数调整,是迫切需要解决的问题[51],[52]。常用的方法是网格[49]和随机搜索[50]。然而,这两种算法有一个共同的缺点:它们需要大量的真实评估,因此计算成本高。
1)实验设置:在本节中,我们将MTCNPs应用于超参数调整问题。我们简单地使用在第IV-C节中使用的相关层,因此这种情况下基于交叉缝合的方法不包括比较,因为它与OMc-MTCNPs类似。实际评估函数是训练神经网络的测试准确性。我们的算法的应用是考虑以下场景:给定
表IX
LeNet-5的最佳参数组合
问题 | 任务 | 最佳参数组合 | |
---|---|---|---|
MNIST(Q1) | 学习率 | 偏置 | |
1 | 3.74E-05 | -0.34193 | |
2 | 5.03E-05 | -0.12454 | |
3 | 2.49E-05 | -0.25653 | |
Fashion-MNIST(Q1) | 1 | -0.05213 | |
2 | 4.42E-05 | 0.03458 | |
3 | 5.26E-05 | -0.05523 | |
MNIST(Q2) | 丢弃率 | 学习率 | 偏置 | |
---|---|---|---|---|
1 | 0.93635 | 2.97E-05 | 0.11921 | |
2 | 0.86388 | 4.14E-05 | 0.27427 | |
3 | 0.79464 | 5.05E-05 | 0.14099 | |
Fashion-MNIST(Q2) | 1 | 0.56436 | 7.22E-05 | -0.02651 |
2 | 0.47544 | 5.97E-05 | -0.14392 | |
3 | 0.70535 | 8.77E-05 | -0.04161 |
此外,我们从60000张训练集中随机选择三组10000张图像作为三个任务的训练集,并从10000张测试集中选择一组2000张图像作为三个任务的测试集。 我们假设所选的训练集已经达到饱和或足以代表整个数据集的特征。 我们设置了两种超参数问题。 第一个是调整学习率和偏置,而其他超参数设置为默认值。 第二个问题在第一个问题的基础上添加了丢失率。 我们使用符号
表 X
具有不同迭代次数的4-D基准问题的统计结果
翻译 private_upload\default_user\2024-10-20-21-26-26\2-Novel_Multitask_Conditional_Neural-Network_Surrogate_Models_for_Expensive_.pdf-2024-10-20 21-24-12.md.part-20.md
任务 | CNPs 100 迭代 | OMc-MTCNPs 33 迭代 | OMc-MTCNPs 100 迭代 | 任务 | CNPs 100 迭代 | OMc-MTCNPs 33 迭代 | OMc-MTCNPs 100 迭代 | |
---|---|---|---|---|---|---|---|---|
1 | 4.9751E-01 (7.6673E-03) | 2.1523E-01 (6.2261E-04) | 2.2390E-02 (5.6850E-04) | F1 有噪声 | 1 | 2.6512E-01 (2.2841E-03) | 2.2461E-01 (1.2212E-03) | 1.5068E-02 (1.1540E-03) |
2 | 3.6974E-01 (1.5268E-02) | 2.0489E-01 (7.3325E-04) | 2.1940E-02 (5.5710E-04) | 2 | 3.4728E-01 (2.6156E-02) | 2.1792E-01 (1.5847E-03) | 1.4488E-02 (1.0420E-03) | |
3 | 5.1722E-01 (3.3044E-02) | 2.2549E-01 (6.2057E-04) | 2.2840E-02 (5.7980E-04) | 3 | 3.6130E-01 (2.7060E-02) | 2.2979E-01 (1.9807E-04) | 1.5271E-02 (1.6620E-04) | |
1 | 5.5419E-01 (6.1903E-02) | 4.0639E-01 (4.5814E-03) | 1.5239E-01 (4.7270E-03) | F2 有噪声 | 1 | 5.0952E-01 (5.0700E-03) | 4.0640E-01 (1.2013E-02) | 2.1082E-01 (1.5314E-02) |
2 | 4.5671E-01 (1.3200E-02) | 3.9116E-01 (4.0260E-03) | 1.4934E-01 (4.6320E-03) | 2 | 5.0106E-01 (4.6900E-03) | 3.9116E-01 (2.8635E-03) | 1.2959E-01 (3.9990E-03) | |
3 | 6.1631E-01 (1.4693E-02) | 4.0713E-01 (6.5147E-03) | 1.5543E-01 (4.8220E-03) | 3 | 5.2143E-01 (5.7000E-03) | 4.0713E-01 (2.8516E-03) | 1.3477E-01 (4.1240E-03) | |
1 | 8.1090E+02 (1.1350E+01) | 6.4590E+02 (1.6598E+01) | 5.6590E+02 (1.7750E+01) | F3 有噪声 | 1 | 7.7290E+02 (9.6150E+00) | 6.7590E+02 (3.2270E+01) | 5.9590E+02 (4.3500E+01) |
2 | 7.7038E+02 | 6.3238E+02 | 5.5238E+02 | 2 | 7.3638E+02 | 6.6838E+02 | 5.9238E+02 | |
(1.0620E+01) | (1.6890E+01) | (1.7390E+01) | (8.0660E+01) | (3.5891E+01) | (4.2100E+01) | |||
3 | 7.7242E+02 (1.4570E+01) | 6.5942E+02 (1.5983E+01) | 5.7942E+02 (1.8110E+01) | 3 | 7.9042E+02 (9.9140E+00) | 6.9342E+02 (5.2184E+01) | 6.0942E+02 (4.3300E+01) | |
1 | 3.8616E-01 (1.9913E-02) | 3.3649E-01 (2.2214E-02) | 1.3773E-01 (3.1575E-02) | F4 有噪声 | 1 | 4.6275E-01 (1.7028E-02) | 4.1628E-01 (7.3601E-02) | 2.0053E-01 (5.1556E-02) |
2 | 3.4744E-01 | 3.2776E-01 | 1.0776E-01 | 2 | 4.6241E-01 | 3.7811E-01 | 2.0505E-01 | |
(1.2251E-01) | (2.9805E-02) | (3.0715E-02) | (1.6464E-02) | (7.1026E-02) | (5.8189E-02) | |||
3 | 4.2780E-01 | 3.4522E-01 | 1.4398E-01 | 3 | 4.7271E-01 | 4.3186E-01 | 2.0607E-01 | |
(1.3150E-02) | (2.4421E-02) | (3.3985E-02) | (1.7669E-02) | (7.1985E-02) | (6.2952E-02) |
- 实验结果:如表 VIII 所示,对于 MNIST 数据集,CNPs 在大多数情况下表现优于 GPs。同时,多任务模型的结果优于 GPs 和 CNPs。在
和 问题上,OMc-MTCNP 和 MMc-MTCNPs 可能找到比其他模型更好的超参数组合。此外,尽管 MMc-MTCNPs 的评估次数 和 少于 OMc-MTCNP,但网络准确度值相似。因此,MMc-MTCNPs 可能比 OMc-MTCNP 更适合解决超参数优化问题。
相似结果可以在Fashion-MNIST数据集上观察到。此外,我们的算法在问题复杂度增加时表现良好。与单任务模型(GPs和CNPs)相比,建议的多任务模型在
我们在第九表中列出了我们的算法找到的每个实例中具有最大准确性的超参数组合。如表中所示,网络的最佳超参数对于不同数据集是不同的。此外,超参数组合的一定程度差异对应于同一数据集中的不同任务。然而,我们的算法仍然可以同时根据不同问题找到合适的超参数组合。换句话说,我们的算法可以为不同问题找到令人满意的解决方案,并且搜索解决方案的效率和结果的准确性得到改善。
F. 附加讨论
1)OMc-MTCNP和单任务模型具有相同数量的真实评估:在上述实验中,尽管OMc-MTCNP算法评估的点数为300个(3 × 100次迭代),与MMc-MTCNPs和单任务模型相同,但真实昂贵的函数评估了900次
如表X所示,当迭代次数为33时,OMc-MTCNP模型对于所有实例仍然优于单任务模型(100次迭代)。随着迭代次数的增加,OMc-MTCNP可以找到比其他模型更好的值。因此,所提出的多任务学习网络结构是有效的。

图9. 相关层的影响。纵坐标坐标为任务的均值;(a)是用于
2)相关层的有效性:在本节中,如图3所示,我们去掉了最后一层,即相关层,并观察了多任务网络的性能。在这个模型中,所有网络的输出被简单地合并在一起。图9展示了带有噪音的4-D基准函数优化问题
可以看到,在这些问题中,OMc-MTCNP相对于没有相关学习层的OMc-MTCNPs表现明显更好。因此,相关学习层在我们的模型中起着重要作用。这些多个任务之间存在相关性(必须优化的问题)。因此,所提出的多任务学习模型允许同时学习多个任务。任务之间的相关性/相似性可以用这个相关层来表达。因此,每个任务可以通过其他任务学习到额外信息,并且联合模型的性能得到改善。
V. 结论
我们提出了基于MTCNP代理模型的BOA来解决一组相关的优化问题(任务)。所提出的框架使用CNPs而不是GPs作为代理模型,以避免协方差计算。此外,我们通过使用相关层将MTCNP网络绑定在一起,以同时处理多个相关任务。此外,我们提出了两种基于MTCNP的模型,即OMc-MTCNP和MMc-MTCNP。与现有的多任务模型相比,我们提出的模型的主要特点是它们提供了一个可扩展的相关层,以更好地学习任务之间的相关性/相似性。通过跨不同任务共享信息,多相关任务可以避免在所提出的模型中的 tabula rasa 学习。每个任务从其他相关任务中获得的知识可以帮助它进一步学习。此外,所提出的代理模型通过一些相关任务增加了观察数据集。因此,可以更自信地进一步估计模型参数。为验证所提出的多任务模型的有效性,我们使用了GP、CNP、MTCNP和其他多任务模型来测试多个基准函数和超参数调整问题。最后,通过实验结果,我们展示了所提出的多任务代理模型在处理复杂问题时比其他模型更有优势,并且在性能上有所提高。在我们未来的研究中,我们计划进一步设计
参考文献
[1] M. Pelikan, D. E. Goldberg, and E. Cantu-Paz,"BOA: The Bayesian optimization
algorithm," in Proc. 1st Annu. Conf. Genet. Evol. Comput., vol. 1, 1999, pp. 525-532.
[2] Y. Jin,"Surrogate-assisted evolutionary computation: Recent advances and future challenges," Swarm Evol. Comput., vol. 1, no. 2, pp. 61-70, 2011.
[3] H. Wang, Y. Jin, and J. Doherty,"Committee-based active learning for surrogate-assisted particle swarm optimization of expensive problems," IEEE Trans. Cybern., vol. 47, no. 9, pp. 2664-2677, Sep. 2017.
[4] H. Wang, Y. Jin, and J. Doherty,"Global and local surrogate-assisted differential evolution for expensive constrained optimization problems with inequality constraints," IEEE Trans. Cybern., vol. 49, no. 5, pp. 1642-1656, Sep. 2017.
[5] D. Guo, Y. Jin, J. Ding, and T. Chai,"Heterogeneous ensemble-based infill criterion for evolutionary multiobjective optimization of expensive problems," IEEE Trans. Cybern., vol. 49, no. 3, pp. 1012-1025, Mar. 2019.
[6] M. N. Le, Y. S. Ong, S. Menzel, Y. Jin, and B. Sendhoff,"Evolution by adapting surrogates," Evol. Comput., vol. 21, no. 2, pp. 313-340, May 2013.
[7] Y. Jin, S. Oh, and M. Jeon,"Incremental approximation of nonlinear constraint functions for evolutionary constrained optimization," in Proc. IEEE Congr. Evol. Comput., 2010, pp. 1-8.
[8] X. Sun, D. Gong, Y. Jin, and S. Chen,"A new surrogate-assisted interactive genetic algorithm with weighted semisupervised learning," IEEE Trans. Cybern., vol. 43, no. 2, pp. 685-698, Apr. 2013.
[9] G. Venturelli and E. Benini,"Kriging-assisted design optimization of S-shape supersonic compressor cascades," Aerosp. Sci. Technol., vol. 58, pp. 275-297, Nov. 2016.
[10] Q. Yang, W.-N. Chen, Y. Li, C. L. P. Chen, X.-M. Xu, and J. Zhang,"Multimodal estimation of distribution algorithms," IEEE Trans. Cybern., vol. 47, no. 3, pp. 636-650, Mar. 2017.
[11] S. Nguyen, M. Zhang, and K. C. Tan,"Surrogate-assisted genetic programming with simplified models for automated design of dispatching rules," IEEE Trans. Cybern., vol. 47, no. 9, pp. 2951-2965, Sep. 2017.
[12] A. Massaro and E. Benini,"Multi-objective optimization of helicopter airfoils using surrogate-assisted memetic algorithms," J. Aircraft, vol. 49, no. 2, pp. 375-383, 2012.
[13] D. Lim, Y. Jin, Y.-S. Ong, and B. Sendhoff,"Generalizing surrogate-assisted evolutionary computation," IEEE Trans. Evol. Comput., vol. 14, no. 3, pp. 329-355, Jun. 2010.
[14] D. R. Jones,"A taxonomy of global optimization methods based on response surfaces," J. Global Optim., vol. 21, no. 4, pp. 345-383, 2001.
[15] D. J. Lizotte, 实用贝叶斯优化, 阿尔伯塔大学, 加拿大艾德蒙顿, 2008年.
[16] B. Shahriari 等人,"贝叶斯优化的熵搜索组合," 2014年。[在线]. 可获得: arXiv:1406.4625.
[17] N. Srinivas 等人,"赌徒环境中的高斯过程优化:无悔和实验设计," 2009年。[在线]. 可获得: arXiv:0912.3995.
[18] R. Caruana,"多任务学习," 机器学习, 卷28, 第1期, 1997年, 页41-75.
[19] Z. Zhang, P. Luo, C. C. Loy, 和 X. Tang,"基于深度多任务学习的面部标记检测," 在欧洲计算机视觉会议, 2014年,pp. 94-108.
[20] X. Liu, J. Gao, X. He, L. Deng, K. Duh 和 Y.-Y. Wang, "使用多任务深度神经网络的表示学习用于语义分类和信息检索," 在HLT-NAACL 2015, pp. 912-921.
[21] R. Girshick,"快速 R-CNN," 在IEEE国际计算机视觉会议, 2015年, pp. 1440-1448.
[22] S. O. Arik 等人,"Deep voice: 实时神经文本转语音," 在第34届国际机器学习大会, 卷70, 2017年, pp. 195-204.
[23] C. Liu, C.-T. Zheng, S. Wu, Z. Yu, 和 H.-S. Wong,"图聚类特征共享的多任务特征选择," IEEE 交易. 智能系统, 卷50, 第1期, 2020年, pp. 74-86.
[24] D. Lian 等人,"基于深度卷积神经网络的多视图多任务凝视估计," IEEE交易. 神经网络学习系统, 卷30, 第10期, 2019年, pp. 3010-3023.
[25] R. K. Ando 和 T. Zhang,"从多个任务和未标记数据学习预测结构的框架," 机器学习杂志, 卷6, pp. 1817-1853, 2005年.
[26] S. Thrun 和 J. O'Sullivan,"在多学习任务中发现结构:TC算法," 在ICML, 卷96, 1996年, pp. 489-497.
[27] W. Cao, S. Wu, Z. Yu 和 H.-S. Wong,"探索多任务聚类中任务、簇和特征之间的关联," IEEE 交易. 神经网络学习系统, 卷30, 第2期, 2019年, pp. 355-368.
[28] E. V. Bonilla, K. M. Chai, 和 C. Williams,"多任务高斯过程预测," 在神经信息处理系统高级会议, 2008年, pp. 153-160.
[29] A. Jalali, P. Ravikumar, S. Sanghavi 和 C. Ruan,"多任务学习的混合模型," 在神经信息处理系统高级会议, 2010年, pp. 964-972.
[30] A. Zweig 和 D. Weinshall,"联合学习的分层正则化级联," 在国际机器学习大会, 2013年, pp. 37-45.
[31] A. Argyriou, T. Evgeniou, 和 M. Pontil,"凸多任务特征学习," 机器学习, 卷73, 第3期, 2008年, pp. 243-272.
[32] A. Maurer, M. Pontil, 和 B. Romera-Paredes,"用于多任务和迁移学习的稀疏编码," 在国际机器学习大会, 2013年, pp. 343-351.
[33] G. Obozinski, B. Taskar, 和 M. I. Jordan,"多个分类问题的联合协变量选择和联合子空间选择," 统计计算, 卷20, 第2期, 2010年, pp. 231-252.
[34] Q. Zheng, Y. Wang, 和 P. A. Heng,"多任务特征学习满足用于EEG分类的鲁棒张量分解," IEEE交易. 智能系统, 将被出版.
[35] L. Han 和 Y. Zhang,"在多任务学习中学习多级任务组," 在第29届AAAI人工智能大会, 2015年, pp. 2638-2644.
[36] L. Duong, T. Cohn, S. Bird 和 P. Cook,"低资源依赖句法分析:神经网络解析器中的跨语言参数共享," 在第53届年会计算语言学协会7th国际自然语言处理联合会议, 卷2, 2015年, pp. 845-850.
[37] I. Misra, A. Shrivastava, A. Gupta 和 M. Hebert,"多任务学习的交叉网络," 在IEEE计算机视觉和模式识别大会, 2016年, pp. 3994-4003.
[38] J. Ma, Z. Zhao, X. Yi, J. Chen, L. Hong 和 E. H. Chi,"在多任务学习中建模任务关系,混合专家门控多任务学习," 在第24届ACM SIGKDD国际数据挖掘大会, 2018年, pp. 1930-1939.
[39] J. Snoek, H. Larochelle, 和 R. P. Adams,"机器学习算法的实际贝叶斯优化," 在神经信息处理系统高级会议, 2012年, pp. 2951-2959.
[40] M. Garnelo 等人,"条件神经过程," 在国际机器学习大会, 2018年, pp. 1690-1699.
[41] E. Brochu, V. M. Cora 和 N. De Freitas,"昂贵成本函数的贝叶斯优化教程,应用于主动用户建模和分层强化学习," 2010年。[在线]. 可获得: arXiv:1012.2599.
[42] D. Lizotte, T. Wang, M. Bowling 和 D. Schuurmans,"高斯过程回归的自动步态优化," 在IJCAI, 卷7, 2007年, pp. 944-949.
[43] D. M. Negoescu, P. I. Frazier 和 W. B. Powell,"用于药物发现中的实验顺序算法知识梯度," INFORMS计算期刊, 卷23, 第3期, 2011年, pp. 346-363.
[44] C. E. Rasmussen,机器学习中的高斯过程.(机器学习暑期学校). 德国海德堡:斯普林格出版社,2003年, pp. 63-72.
[45] D. J. Lizotte,"实用贝叶斯优化," 博士论文,计算机科学系,阿尔伯塔大学,加拿大艾德蒙顿,2008年。
[46] J. Luo, A. Gupta, Y.-S. Ong 和 Z. Wang,"耗费昂贵的多目标问题的进化最优化与共Pareto前沿高斯过程代理," IEEE 交易. 智能系统, 卷49, 第5期, 2019年, pp. 1708-1721。
[47] D. P. Kingma 和 M. Welling,"自动编码变分贝叶斯," 在学习表征国际会议(ICLR), 2014年, p. 6.
[48] D. P. Kingma 和 J. Ba,"Adam:随机优化方法," 2014年。[在线]. 可获得: arXiv:1412.6980.
[49] S. Zhu 和 K.-K. Ma,"一种用于快速块匹配运动估计的新型菱形搜索算法," IEEE 交易. 图像处理, 卷9, 第2期, 2000年, pp. 287-290.
[50] J. Bergstra 和 Y. Bengio,"用于超参数优化的随机搜索," 机器学习杂志, 卷13, 2月, 2012年, pp. 281-305.
[51] I. Ilievski 等人,"使用非概率RBF代理模型对深度神经网络进行超参数优化," 2016年。[在线]. 可获得: arXiv:1607.08316.
[52] I. Loshchilov 和 F. Hutter, "CMA-ES 用于深度神经网络的超参数优化," 2016. [在线]. 可获取: arXiv:1604.07269.
[53] Y. Lecun, L. Bottou, Y. Bengio, 和 P. Haffner, "基于梯度的学习应用于文档识别," IEEE 会议录, vol. 86, no. 11, pp. 2278-2324, 1998 年 11 月.
[54] T. Evgeniou 和 M. Pontil, "正则化的多任务学习," in 第 10 届 ACM SIGKDD 国际数据挖掘会议, 2004, pp. 109-117.
[55] W. Liu, T. Mei, Y. Zhang, C. Chen, 和 J. Luo, "用于视频缩略图选择的多任务深度视觉-语义嵌入," in IEEE 计算机视觉与模式识别会议录, 2015, pp. 3707-3715.

罗健平 (IEEE 会员) 2004 年和 2010 年分别从深圳大学信息工程学院获得硕士和博士学位。
他是深圳大学信息工程学院的副教授。他的研究兴趣包括机器学习理论与应用、智能优化算法、进化计算。
陈亮,照片和传记在出版时不可用。

李霞于1989年和1992年分别从西安电子科技大学获得电子工程和信号与信息处理学士和硕士学位,并于1992年从香港中文大学信息工程系获得博士学位。
她目前是深圳大学电子与信息工程学院的教授和博士生导师,同时担任深圳市高级通信与信息处理重点实验室主任。她的主要研究兴趣涵盖了进化计算、优化、神经网络和多媒体信号处理的理论和应用。

张庆富 (IEEE 院士) 1984 年从山西大学获得数学学士学位,1991 年和 1994 年在西安电子科技大学分别获得应用数学硕士和信息工程博士学位。
他是香港城市大学计算智能系主任教授。他的主要研究兴趣包括进化计算、优化、神经网络、数据分析及其应用。
张博士是2016年连续四年入选Web of Science计算机科学高被引科研者。他是IEEE TEC 和 IEEE Cybernetics 的副主编。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧