TiNO-Edit：基于扩散的稳健图像编辑的时间步长和噪声优化

尽管有许多尝试利用预训练的文本到图像模型（T2I）（如稳定扩散（SD）），进行可控图像编辑，但产生良好的可预测结果仍然是一个挑战。以前的方法要么侧重于在特定数据集上，对预训练的T2I模型进行精细调优，以生成特定类型的图像（例如，使用特定的对象或人），要么侧重于优化每个输入图像的权重、文本提示和/或学习特征，以试图引导图像生成器产生所需的结果。然而，这些方法都有缺点，无法以可预测和可控的方式产生良好的结果。为了解决这个问题，提出了TiNO Edit，这是一种基于SD的方法，专注于在编辑过程中优化噪声模式和扩散时间步长，这是以前未探索过的。通过这个简单的更改，能够生成与原始图像更好地对齐，并重新实现所需结果的结果。此外，提出了一组新的损失函数，它们在SD的潜在域中运行，与在像素域中运行的先前损失相比，大大加快了优化速度。改进的方法可以很容易地应用于SD的变体，包括文本反转和DreamBooth，它们对新概念进行编码并将其合并到编辑结果中。展示了通过改进的方法实现的一系列图像编辑功能。

TiNO Edit启用的功能概述，如图4-37所示。