如何让 DALL·E 2 更懂你。第1部分

如何让 DALL·E 2 更懂你。第1部分

The image was generated by 从和 2

几周前，我终于可以访问 DALL·E 2，我非常激动。当我第一次尝试它时，我并没有完全印象深刻，因为我的搜索结果有点令人失望。然而，由于它背后的技术，它看起来仍然令人难以置信，所以我继续测试它。一段时间后，我意识到我的不好，这就是交易。仅仅发出随机搜索请求是不够的，它应该有更好的结构。所以今天我要给你一些建议，如何让你与 DALL·E 2 的互动更有效。

让我给你一个关于 DALL·E 2 架构的鸟瞰图，它将帮助你更深入地理解文本预处理。

A high-level overview of unCLIP. Source: arxiv.org

让我们深入了解虚线下方的训练过程，看看主要步骤：

第一步，我们使用 文本编码器 获取输入文本的 CLIP 嵌入；
然后在生成 CLIP 图像嵌入之前将文本嵌入馈送到扩散；
最后，我们使用图像解码器来生成以 CLIP 图像嵌入为条件的图像。

关于几句话夹子（对比语言-图像预训练）。的主要任务夹子是将图像与其相应的标题匹配：它学习同一抽象对象的文本和视觉表示之间的联系。

所以我们需要查看用于 CLIP 训练的数据。该数据集由从 Internet 上各种公开可用资源收集的 4 亿对（图像、文本）构建而成。

One random (non-cherry-picked) prediction of CLIP. Source: openai.com

在最初的 CLIP 论文中，作者提到了一个问题：在训练数据集中，与图像配对的文本只是一个单词的情况相对较少 .在这里，他们使用提示模板解决了问题 “一张{标签}的照片”。 此外，他们强调有时在“快速工程”期间指定类别是有帮助的。

例如在 Oxford-IIIT Pets 上，使用“一张 {label} 的照片，一种宠物”。帮助提供上下文效果很好。

由于 CLIP 是使用来自互联网的数据进行预训练的，因此许多文本提示具有诸如创建/绘制/渲染图像的艺术风格、创建/发布/发布图像的公司/组织、创建者是谁等特征等。这就是为什么训练数据集包含一堆格式如下的提示： “{subject}, {camera angle}”, “{subject}, {style}”, “{subject}, {time}”等 .

在继续之前，我想向您展示我的第一个提示，当时我不知道如何提出请求。下面你将看到我与 DALL·E 2 关系的第一阶段（ 我的请求以斜体显示 ）。

我：我想看看 最可怕的怪物。

从和 2 ：

我 : 能不能给我看看 巨大的蓝猫在海洋中起飞？

从和 2 ：

我：怎么样 机器人梦见电羊的赛博朋克插图？

从和 2 ：

你是否期望得到这样的东西？坦率地说，我没有。即使第二次尝试的第四只猫让我想起了一点宫崎骏和他的龙猫，在我看来很平淡。而且它绝对不像 DALL·E 2 演示中的图片。我花了一段时间让我的艺术看起来更好，我向你保证这并不难。您只需要记住一些时刻来密切关注我们将在下面介绍的内容。

要记住的 6 个主要提示

当您要发送请求时，您需要回答一些问题，这可能有助于您提出更清晰的请求：

图像是由什么组成的？（作品）
哪些元素更重要，哪些元素更重要？（规模）
这些元素如何相互关联？（接近）
这张图应该是从什么角度拍摄的？（位置）
元素应该如何点亮？（灯光）
什么形象风格最合适？（风格）

在这里，我想讨论此列表中的前 4 个步骤。我们将从它们开始，因为这些是制作图像的基本概念。至于其他 2 个，将在下一部分中讨论。

作品

照片构图 是框架内视觉元素的排列。

“这是一个令人愉悦的矩形内物体组织”——摄影师亚当朗

一般来说，有几条关于构图的重要规则。但它们中的大多数只能用于创建照片。

但是，您可以在使用 DALL·E 2 创建图像时遵循一些概念。这些概念如下：

构成元素（线条、形状和形式、价值、空间、颜色、纹理）。
构图原则（平衡、比例、和谐）

您可以在文本提示中改变所有这些。让我们看看它在实践中是如何工作的。

我：我想看看 一个人在太空边缘骑摩托车，数字艺术。

从和 2 ：

我 : 好的，让我们添加一些细节. 给我看 一个人在太空边缘骑摩托车，朝着一个星球，数字艺术

从和 2 ：

我 : 如果我们在同一张照片上加一条龙，你怎么看？所以我想得到 一个人在太空边缘骑着摩托车，试图摆脱白龙，走向一个星球，阴影，数字艺术。

从和 2 ：

与第一张图片不同，这里我们的构图更加全面。我们可以继续尝试使我们的构图更复杂。所以，在这里我想继续并考虑下一部分处理 规模， 接近度和位置 .

规模 & 接近 & 位置

这三个概念密切相关，因为它们负责空间中物体之间的联系。尽管如此，让我们尝试定义每个概念，然后将它们视为一个实体。

规模是与构图一起重要的元素。它有助于增加照片、绘画或绘图中的 3D 空间。你可以调整你的规模使用一些大小词。

至于接近，通常看一张照片，我们可以了解对象之间的关系以及与其他对象相比哪个更重要。您可能还想关注对象的某些特殊部分。实际上，接近是帮助我们做到这一点的事情。可以使用以下值：

（极端）特写镜头
中景
（极端）广角镜头
（极端）远射
全拍

位置（角度和相机视图）也是非常重要的概念，因为它可以帮助您展示对象之间的比例。您可以在提示末尾添加角度值，例如：

高角度
低角度
鸟瞰图
虫眼视图
面对面
过肩射击
或者可以指定度数（25度角）

现在是时候检查一下了。假设我们想节省食品造型师并从这个菜单 .对于我们的提示，我们将使用菜单中的原始描述。

Chicken Caesar. Source: thebigsalad.com

我： 高品质的沙拉配火箭莴苣、帕尔马干酪、美味的烤鸡胸肉、丰盛的面包块、凯撒酱，放在白盘子上，放在橡木桌上 .

从和 2 ：

我 : 最好在图片中显示整个盘子： 高质量的沙拉配火箭莴苣、帕尔马干酪、美味的烤鸡胸肉、丰盛的面包丁、凯撒酱，放在白盘子上，放在橡木桌上，广角镜头。

从和 2 ：

我 : 让我们试着把盘子缩小一点： 高品质的沙拉配火箭莴苣、帕尔马干酪、香喷喷的烤鸡胸肉、丰盛的面包丁、凯撒酱，放在白盘子上，放在橡木桌上，超远景，远景

从 E 2:

我 : 角度呢？ 高品质沙拉配火箭莴苣、帕尔马干酪、香喷喷的烤鸡胸肉、丰盛的面包丁、凯撒酱，放在白盘子上，放在橡木桌上，超远景，广角，25 度角

从 E 2:

我 : 和相机视图？一个高品质沙拉配火箭莴苣、帕尔马干酪、香喷喷的烤鸡胸肉、丰盛的油炸面包丁、凯撒酱，放在白色圆盘上，放在橡木桌上，极长镜头，广角镜头，25 度角，左侧看法

从 E 2:

至于我，它看起来比原始图像更漂亮。再一次，我们有几乎无穷无尽的机会来改善我们的形象。我们将在下一部分继续我们的实验。

是否可以让一个人在土星环上骑行/跑步/行走？

简短的回答是我不知道。真的。而且我不知道为什么我一直在徒劳地尝试得到它，但我的大脑产生了一个非常惊人的图像，所以我想看看它。

我已经做了很多请求，但我仍然没有得到想要的输出。在这里您还可以看到结果。

我： 宇航员在土星环上骑摩托车，数字艺术 .

从 E 2:

我： 宇航员在土星环上奔跑，数字艺术 .

从 E 2:

我： 走在土星环上的宇航员，数字艺术 .

从 E 2:

你可以看到，如何设计一个提示让一个人进入土星环的任务仍然是开放的:)

在这里，我们考虑了图像生成的基本概念，例如构图、比例、接近度和位置。我们有非常有趣的图像，我们可以尝试使用这些图像进行改进灯光和 风格。

此外，尽管有所有这些建议，但您需要记住，您不应该害怕模糊不清。您只需要尝试不同的方法，看看会发生什么。好吧，最后，你会遇到 DALL·E 2 的方法，可能有一天你会遇到将在艺术比赛中获得第一名 😃

文学

从 E 2 - https://openai.com/dall-e-2/
使用 CLIP Latents 生成分层文本条件图像 — https://arxiv.org/pdf/2204.06125.pdf
从自然语言监督中学习可迁移的视觉模型 — https://arxiv.org/pdf/2103.00020.pdf
DALL·E 2 解绑 — https://bakztfuture.substack.com/p/dall-e-2-unbundling
DALL E 2 提示书 - https://pitch.com/v/DALL-E-prompt-book-v1-tmd33y

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明

本文链接：https://www.qanswer.top/15582/10240510

posted @ 2022-09-05 10:11 哈哈哈来了啊啊啊阅读(451) 评论(0) 收藏举报

刷新页面返回顶部