在有限 computational budget 下,借助 low-fidelity 模型提高精度


  • 论文名称:context-aware learning of hierarchies of low-fidelity models for multi-fidelity uncertainty quantification
  • 链接:https://www.sciencedirect.com/science/article/pii/S0045782523000312
  • 国际计算力学领域的顶级期刊《Computer Methods in Applied Mechanics and Engineering》(中科院一区 TOP,IF:6.756)

0 abstract

  • 背景:

    • multi-fidelity Monte Carlo 方法利用 low-fidelity and surrogate models 来减少方差(variance),使不确定性量化变得可行,尽管物理系统的 high-fidelity 数值模拟计算成本很高。
  • 工作简述:

    • 我们提出了一种 context-aware 的 multi-fidelity Monte Carlo 方法,实现了训练 low-fidelity 模型的成本和 Monte Carlo 采样的成本之间的最佳平衡。

    • 当训练 low-fidelity 模型时,我们考虑到了所学的 low-fidelity 模型将被使用的背景,即在 Monte Carlo 估计中减少方差,这使得它能够在训练和抽样之间找到最佳的权衡,以最小化给定计算预算(computational budget)下估计器的均方误差(mean-squared error)上限。

  • 继承了之前的工作:

    • 它将以前开发的 context-aware bi-fidelity Monte Carlo 方法,推广到多个模型的层次结构 和 更普遍的 low-fidelity 模型类型,如 sparse-grid(比如说 PDE 仿真的网格粒度粗一点)和 deep-network。
  • 文献树上的位置:

    • 我们与传统的 surrogate modeling 和 model reduction 技术不一样,后者构建 low-fidelity 模型的主要目的是为了很好地接近 high-fidelity 模型的输出,通常忽略了所学模型在 upstream tasks 中的 context。
  • 实验结果:

    • 用陀螺动力学模拟代码 Gene 进行的数值实验表明,在做一个不确定性量化时,与 single-fidelity Monte Carlo 和 standard multi-fidelity estimators 相比,速度提高了两个数量级:相当于在德州高级计算中心 Lonestar6 超级计算机的一个节点上,运行时间从 72 天减少到 4 小时。
  • literature:[1] 是一个 Multi-Fidelity 的 survey。其他 literature 懒得整理了。
  • motivation:如果没有现成的 low-fidelity model,那么就需要首先训练得到它们,这可能会产生额外的计算成本,并且需要对 high-fidelity model 进行额外的评估,以产生训练数据。
  • main idea:该方法将 ① 训练多个 low-fidelity 模型的层次的成本 ② 蒙特卡洛采样以获得多保真估计器的成本进行 trade-off,在给定的 computational budget 下,使均方误差(mean-squared error)的上限最小(context-aware:最大限度地减少蒙特卡罗估计的方差),而不是尽可能接近 high-fidelity model。
  • structure:
    • 2:preliminaries,介绍符号定义,传统的 multi-fidelity Monte Carlo 算法,他们之前做的一个 bi-fidelity context-aware 算法。
    • 3:method。
    • 4:两个 experiment,1 具有九个不确定参数的二维空间域上的热传导问题,2 具有不确定输入的现实等离子体微扰动情况。数值结果的代码:https://github.com/ionutfarcas/context-aware-mfmc

2 背景 & 前情提要

2.1 背景:static multi-fidelity Monte Carlo estimation

  • f(0):XY 是一个输入-输出响应(input-output response),expensive to evaluate。输入为 d 维,输出为 1 维。
    • 对一个随机变量 Θ=[Θ1,Θ2,...,Θd]^T,我们想估计 f^(0)(Θ) 的期望值 μ0。
  • MFMC(multi-fidelity Monte Carlo)estimator 包含 k+1 个模型,f^(0) high-fidelity,f^(1) ... f^(k) low-fidelity。
    • low-fidelity model 的精度 ρ:用 f^(j) 对 f^(0) 的 Pearson correlation coefficient 来定义:ρj=Cov[f(0),f(j)]/σ0σj,其中 σ 是方差(variance)。设定 ρ_k+1 = 0。
    • models 的评估成本:w1, w2, ..., wk>0。归一化 high-fidelity f^(0) 的评估成本 w0 = 1。
    • 假设模型们满足排序:精度:1 = |ρ0|>|ρ1|>…>|ρk|;评估成本:wj1/wj>[ρj12ρj2]/[ρj2ρj+12]
  • 设 m_j 为 model f^(j) 的评估次数,0 ≤ m0 ≤ m1 ≤ … ≤ m_k。每一次评估都从独立同分布(iid)的分布 π 里抽样。
  • 于是 MFMC estimator 形式:E^MFMC=E^m0(0)+j=1kαj(E^mj(j)E^mj1(j)),其中 E^mj(j)=1m0f(0)(θi) 即 f(θ) 的均值。
  • 总 computational cost: p=j=0kmjwj
  • 我们把 p 固定(budget),去找最优的 m0,,mk 以及 α0,,αk,来让 E^MFMC 的方差最小。
    • E^MFMC 的 MSE = σ02p(j=0kwj(ρj2ρj+12))2
    • 其实是有闭式解的,见 [14]。

2.2 前情提要:context-aware bi-fidelity Monte Carlo estimator

  • 他们之前做的 context-aware bi-fidelity MC estimator 的工作是 [2]。

    • 改了一下 notation: low-fidelity model fn(1) 表示训 f^(1) 需要用 high-fidelity f^(0) 的 n 个样本。
    • 假设所有 low-fidelity model 都是用相同的 NN 来训,唯一不同的是训练样本数量,那么 Pearson 系数 ρ1 和评估成本 w1 都取决于 n。
    • 【这是假设 assumption】Pearson 系数的 bound:1ρ12(n)c1nα;评估成本的 bound:w1(n)c2nβ;其中 c1 c2 α>0 β>0 都是常数。
  • 我们的 budget 是 p。如果用 n 个样本训练 f^(1),那么还有 p-n 的预算用于 f^(1) 的评估。

  • context-aware bi-fidelity MC estimator: E^nCAMFMC=E^m0(0)+α1(Em1(1)Em0(1)) ,决策变量为 m0,m1,α1 ,目标函数为最小化 E^nCAMFMC 的 MSE。

    • E^nCAMFMC 的 MSE = σ02pn(1ρ12(n)+w1(n)ρ12(n))2 (公式 2.6)。
  • 如果预算 p 是固定的,n 可以通过最小化 MSE 的上界来选择。

    • 上界: MSE(E^nCAMFMC)2σ02pn(c1nα+c2nβ)
    • 工作 [2] 表明,在某些假设下,给定一个 p,存在一个唯一的 n∗,最小化(2.6);然而,n∗ 没有闭式解,只能数值寻找。
    • 最佳的 n∗ 是独立于预算 p 的。

3 method

3.1 一些关于 multi-fidelity models 的假设

  • 假设 1:存在 ca,j0,函数 ra,j(nj) 值为正数、对 n_j 单调递减、二次可微。限制精度(Pearson 系数): 1ρj2(nj)ca,jra,j(nj)
  • 假设 2:存在 cc,j0,函数 rc,j(nj) 值为正数、对 n_j 单调递增、二次可微。限制评估成本: wj(nj)cc,jrc,j(nj)
  • 貌似,假设两个 r 函数为: ra,j=nα,rc,j=nα,α>0
  • 一个备注:事实上,如果一组数据拿去训 f^(i),那么也有可能可以拿去训 f^(j);不过,更有可能的一种情况是,两个模型结构不一样,需要的训练数据结构也不一样,所以不能重用,所以,下文都不考虑样本的重用。

3.2 只用一个 low-fidelity 模型:[2] 基础上的改进

  • 首先,放缩 MSE(E^nCAMFMC)2σ02pn(ca,1ra,1(n1)+cc,1rc,1(n1)),将它记为 u1。接下来,我们关心这个 upper bound 何时存在唯一的全局最小值。
    • PS:证明直接看原文吧,本科高数难度。
  • 命题 1 :u1 何时存在唯一的全局最小值:
    • 假设满足 ca,1ra,1(n1)+cc,1rc,1(n1)>0【公式 (3.6)】。那么,u1 具有唯一的全局最小值 n1[1,p1]
  • 命题 2 :假设对于所有 n1(0,) 满足 公式 (3.6),
    • 并且存在一个 n¯1(0,) 使得 ca,1ra,1(n¯1)+cc,1rc,1(n¯1)=0。那么 n¯1 是唯一的,并且 n1max{1,n¯1}

3.3 context-aware multi-fidelity MC sampling

一种 sequential 训练方法,来为 CA-MFMC estimator 拟合 hierarchies of low-fidelity models,其中每一步都实现了 training 和 sampling 之间的 optimal trade-off。

我主要关心 context-aware 是什么东西。

  • 引理 1:在假设 1 假设 2 下,CA-MFMC estimator 的 MSE 的 upper bound:
    • MSE(E^n1,,nkCAMFMC)(k+1)σ02pk1nk(κk1+c^a,kra,k(nk)+cc,krc,k(nk))
    • 其中 pk1=pj=1k1nj,  p0=p
    • κk1=ca,1ra,1(n1)+j=1k2cc,jrc,j(nj)ca,j+1ra,j+1(nj+1),  κ0=0
    • c^a,k=cc,k1rc,k1(nk1)ca,k,  c^a,1=ca,1
    • (重申:n 是训 low-fidelity model 的样本数量)
    • 证明:直接用一个 平方和不等式 展开。
  • 看这个 upper bound 括号内加和的部分,c^a,kκk1 都仅依赖于 n1,,nk1,而 ra,k(nk), rck(nk) 仅依赖于 n_k。这启发了一种 sequentially 向 CA-MFMC estimator 添加 low-fidelity model 的做法。
    • 给定 n1,,nk1,寻找 nk,使得 uj(nj;n1,,nk1):[1,pj11](0,)uj(nj;n1,,nk1)=1pj1nj(κj1+c^a,jra,j(nj)+cc,krc,k(nj))
  • 命题 3:使用命题 1,即 n1 是 u1 的全局最小值。现在去考虑 j = 2,3,...,k。
    • c^a,jra,j(nj)+cc,jrc,j(nj)>0,则存在 u_j 的全局最小值 nj[1,pj11]
    • 证明好像跟命题 1 同理。
  • 命题 4:使用命题 1,即 nj 是 u_j 的全局最小值。
    • 若存在 n¯j(0,) 使得 c^a,jra,j(n¯j)+cc,jrc,j(n¯j)=0,则有 njn¯j,即 nj 的一个 upper bound。
    • 继续跟命题 2 同理,归纳法。
  • 一个备注:models 的 hierarchy 必须满足评估次数 m 递减(2.1)。

啊…… 这就结束了?感觉看了一肚子数学…

4 experiment

图挺好看的。

要赶着看 MFRL 了,不细看了。



本文作者:MoonOut

本文链接:https://www.cnblogs.com/moonout/p/17321665.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   MoonOut  阅读(138)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起
  1. 1 Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto Jascha Heifetz / Chicago Symphony Orchestra
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto - Jascha Heifetz / Chicago Symphony Orchestra
00:00 / 00:00
An audio error has occurred.