2303.12789

摘要

Instruct-NeRF2NeRF：用文本指令 3D一致地编辑NeRF场景
- 给定一个场景的NeRF 和用于重建它的图像集
- 使用扩散模型迭代编辑该图像集
  - 图像条件-扩散模型 InstructPix2Pix
    - an image-conditioned diffusion model
  - 同时优化底层场景
- 得到反映指令编辑的优化3D场景
  - 我们提出的方法能够编辑大规模的、真实世界的场景，并能够完成比以前的工作更现实的、更有针对性的编辑。
Figure1:用指令编辑3D场景
- 一种使用基于文本的指令对NeRF场景进行一致的三维编辑的方法。我们的方法可以完成本地和全局场景编辑。
Figure2:概览
- 逐步更新重建的NeRF场景
  - 在训练时迭代更新数据集
    1. 从NeRF场景渲染得到一个图像
    2. 用InstructPix2Pix 基于给定文本指令编辑该图像
    3. 用编辑后的图像代替数据集中的图像
    4. 继续训练NeRF

引言

捕捉真实世界3D场景的数字化表示很容易：
1. 从不同视点获取一个场景的图像集
2. 重建其相机参数
3. 使用这些摆好的图片(posed images)优化(optimize)NeRF
创建3D资产(assets)的创作并不容易
- 传统手工方式：
  - 手动雕刻、挤压和重新纹理一个给定的对象
  - 与神经表征(neural representations)的出现更加相关，而神经表征通常没有明确的表面
  - 进一步激发3D编辑方法的需求，尤其是像捕捉技术那样的易操作性
Instruct-NeRF2NeRF：用文字指令编辑3D
- 在一个预先捕获的3D场景上进行操作，并确保所产生的编辑3D一致
- 从2D扩散模型获取形状和外观的先验
  - InstructPix2Pix：基于指令的2D图像编辑
  - 对重建后的NeRF渲染得到的不同视点的各个图像的编辑会产生不一致性
  - 解决方法：类似3D生成模型DreamFusion
    - 底层思路：迭代数据集更新Iterative Dataset Update(Iterative DU)
    - 编辑NeRF输入图片的数据集<->更新底层3D场景
      - 以混合编辑后的图像
在各种捕获的NeRF场景上评估我们的方法
- 通过比较我们的方法的消融变体来验证我们的设计选择，以及分数蒸馏采样（SDS）损失的详细实现。
- 我们还定性地比较了我们的方法与并发的基于文本的风格化方法。
- 我们证明了我们的方法可以完成对人、对象和大规模场景的各种编辑。

方法

概况
- 输入：
  - 将一个重建的NeRF场景及其相应的源数据作为输入:
    - 一组捕获的图像
    - 它们相应的相机姿态
    - 相机校准（通常来自一个结构来自运动(structure-from-motion)的系统，如COLMAP）。
  - 此外，我们的方法以一个自然语言的编辑指令作为输入，例如，“把他变成艾伯特·爱因斯坦”。
- 作为输出，我们的方法根据所提供的编辑指令生成：
  - 编辑后的NeRF
  - 编辑后的输入图像。
- 我们的方法：
  1. 在扩散模型的帮助下迭代地更新已捕获的视点上的图像
    - 我们的工作建立在图像编辑扩散模型的最新进展，特别是InstructPix2Pix。
    - 它提出了一个图像和文本条件扩散模型，被训练用来基于人类提供的指令编辑自然图像。
  2. 然后用标准的NeRF训练(standard NeRF training)来整合这些3D编辑
背景
1. 神经辐射场NeRFs
  - 用于重建和渲染3D场景的小型的(compact)、便利的表示方法
  - 由场中的样本点(sample)通过3D位置\((x,y,z)\)和观察方向\((\theta,\phi)\)进行参数化(parameterized)
  - 场中的样本点被处理后得到颜色和密度\((\mathbf{c},\sigma)\)，在一条射线上积分即可得到一个2D像素点颜色
  - NeRF通过一组被捕获的图片及其对应的相机参数进行优化
    - 相机参数包括校准(calibration)与外部姿态/方向(exrinsic pos/orientation)
    - 这些相机参数用于提取每像素的世界空间射线参数化法(per-pixel world-space ray parameterization)
    - 这些参数化法描述每个图像的每个像素点的相机射线\(\mathbf{r}(t)=\mathbf{o}+t\mathbf{d}\)的3D中心\(\mathbf{o}\)和方向\(\mathbf{d}\)
    - 这些相机射线及其对应的图片像素颜色被用于优化NeRF
  - 训练NeRF的典型过程
    1. 选择射线\(r\)的一个子集，渲染得到ReRF在这条射线上的颜色估计\(\hat{C}(r)\)
    2. 相对于被捕获照片的该像素颜色\(C(r)\)计算损失函数\(\mathcal{L}(C(r),\hat{C}(r))\)
  - 在实际应用中
    - 为了实现可靠的优化，我们从不同的视点中随机选择射线，以确保重建场景对象的三维位置得到足够好的约束。
    - 要渲染一个新视点，对这个新图像的每个像素点采样一个射线，然后在场中进行积分得到该像素点的颜色\(\hat{C}(r)\)。最后将颜色\(\hat{C}(r)\)排列成2D帧即可得到图像。
2. InstructPix2Pix
  - 去噪扩散模型(denoising diffusion model)是生成模型(generative model),通过学习逐步将一个噪声样本转化为一个有模型的数据分布(modelled data distribution)
  - InstructPix2Pix是一种基于扩散的方法，专门用于图像编辑
    - 以RGB图像\(c_I\)和文本编辑指令\(c_T\)作为条件
    - 以噪声图像/纯噪声作为输入
    - 目的是产生编辑后的图像\(z_0\)的估计(\(z_0\)是\(c_I\)服从指令\(c_T\)的编辑后的图像)
  - 形式化的，扩散模型预测了输入的噪声图像\(z_t\)中的噪声量，使用去噪的U-net \(\epsilon_\theta\): \(\hat{\epsilon}=\epsilon_\theta(z_t;t,c_I,c_T)\)
    - 这种噪声预测可用于推导编辑后的图像的估计\(\hat{z}_0\)

对原理有了大概了解，我的实现思路是：
- 用训练好的NeRF在若干随机视点上渲染得到图片及其相机参数
- 用 instructPix2Pix +文本指令编辑图片
  - stable-diffusion+Unet能否替代instructPix2Pix？
  - 是否需要dreambooth？看看效果。
- 用编辑后的图片重新去优化NeRF
  - 只尝试过渲染，没有尝试过训练一个NeRF，还需要去找开源项目进行学习

posted @ 2023-04-01 15:15 th-is 阅读(166) 评论(0) 收藏举报

刷新页面返回顶部

th-is

2303.12789

摘要

引言

相关工作

方法

公告