如何让 DALL·E 2 更懂你。第1部分

如何让 DALL·E 2 更懂你。第1部分

The image was generated by 从和 2

几周前,我终于可以访问 DALL·E 2,我非常激动。当我第一次尝试它时,我并没有完全印象深刻,因为我的搜索结果有点令人失望。然而,由于它背后的技术,它看起来仍然令人难以置信,所以我继续测试它。一段时间后,我意识到我的不好,这就是交易。仅仅发出随机搜索请求是不够的,它应该有更好的结构。所以今天我要给你一些建议,如何让你与 DALL·E 2 的互动更有效。

让我给你一个关于 DALL·E 2 架构的鸟瞰图,它将帮助你更深入地理解文本预处理。

A high-level overview of unCLIP. Source: arxiv.org

让我们深入了解虚线下方的训练过程,看看主要步骤:

  1. 第一步,我们使用 文本编码器 获取输入文本的 CLIP 嵌入;
  2. 然后在生成 CLIP 图像嵌入之前将文本嵌入馈送到扩散;
  3. 最后,我们使用图像解码器来生成以 CLIP 图像嵌入为条件的图像。

关于几句话 夹子 (对比语言-图像预训练)。的主要任务 夹子 是将图像与其相应的标题匹配:它学习同一抽象对象的文本和视觉表示之间的联系。

所以我们需要查看用于 CLIP 训练的数据。该数据集由从 Internet 上各种公开可用资源收集的 4 亿对(图像、文本)构建而成。

One random (non-cherry-picked) prediction of CLIP. Source: openai.com

在最初的 CLIP 论文中,作者提到了一个问题: 在训练数据集中,与图像配对的文本只是一个单词的情况相对较少 .在这里,他们使用提示模板解决了问题 “一张{标签}的照片”。 此外,他们强调有时在“快速工程”期间指定类别是有帮助的。

例如在 Oxford-IIIT Pets 上,使用“一张 {label} 的照片,一种宠物”。帮助提供上下文效果很好。

由于 CLIP 是使用来自互联网的数据进行预训练的,因此许多文本提示具有诸如创建/绘制/渲染图像的艺术风格、创建/发布/发布图像的公司/组织、创建者是谁等特征等。这就是为什么训练数据集包含一堆格式如下的提示: “{subject}, {camera angle}”, “{subject}, {style}”, “{subject}, {time}”等 .

在继续之前,我想向您展示我的第一个提示,当时我不知道如何提出请求。下面你将看到我与 DALL·E 2 关系的第一阶段( 我的请求以斜体显示 )。

: 我想看看 最可怕的怪物。

从和 2

: 能不能给我看看 巨大的蓝猫在海洋中起飞?

从和 2

: 怎么样 机器人梦见电羊的赛博朋克插图?

从和 2

你是否期望得到这样的东西?坦率地说,我没有。即使第二次尝试的第四只猫让我想起了一点 宫崎骏 和他的 龙猫 ,在我看来很平淡。而且它绝对不像 DALL·E 2 演示中的图片。我花了一段时间让我的艺术看起来更好,我向你保证这并不难。您只需要记住一些时刻来密切关注我们将在下面介绍的内容。

要记住的 6 个主要提示

当您要发送请求时,您需要回答一些问题,这可能有助于您提出更清晰的请求:

  1. 图像是由什么组成的? (作品)
  2. 哪些元素更重要,哪些元素更重要? (规模)
  3. 这些元素如何相互关联? (接近)
  4. 这张图应该是从什么角度拍摄的? (位置)
  5. 元素应该如何点亮? (灯光)
  6. 什么形象风格最合适? (风格)

在这里,我想讨论此列表中的前 4 个步骤。我们将从它们开始,因为这些是制作图像的基本概念。至于其他 2 个,将在下一部分中讨论。

作品

照片构图 是框架内视觉元素的排列。

“这是一个令人愉悦的矩形内物体组织”——摄影师 亚当朗

一般来说,有几条关于构图的重要规则。但它们中的大多数只能用于创建照片。

但是,您可以在使用 DALL·E 2 创建图像时遵循一些概念。这些概念如下:

  1. 构成元素(线条、形状和形式、价值、空间、颜色、纹理)。
  2. 构图原则(平衡、比例、和谐)

您可以在文本提示中改变所有这些。让我们看看它在实践中是如何工作的。

: 我想看看 一个人在太空边缘骑摩托车,数字艺术。

从和 2

: 好的,让我们添加一些细节. 给我看 一个人在太空边缘骑摩托车,朝着一个星球,数字艺术

从和 2

: 如果我们在同一张照片上加一条龙,你怎么看?所以我想得到 一个人在太空边缘骑着摩托车,试图摆脱白龙,走向一个星球,阴影,数字艺术。

从和 2

与第一张图片不同,这里我们的构图更加全面。我们可以继续尝试使我们的构图更复杂。所以,在这里我想继续并考虑下一部分处理 规模, 接近度和位置 .

规模 & 接近 & 位置

这三个概念密切相关,因为它们负责空间中物体之间的联系。尽管如此,让我们尝试定义每个概念,然后将它们视为一个实体。

规模 是与构图一起重要的元素。它有助于增加照片、绘画或绘图中的 3D 空间。你可以调整你的 规模 使用一些大小词。

至于 接近 ,通常看一张照片,我们可以了解对象之间的关系以及与其他对象相比哪个更重要。您可能还想关注对象的某些特殊部分。实际上, 接近 是帮助我们做到这一点的事情。可以使用以下值:

  • (极端)特写镜头
  • 中景
  • (极端)广角镜头
  • (极端)远射
  • 全拍

位置 (角度和相机视图)也是非常重要的概念,因为它可以帮助您展示对象之间的比例。您可以在提示末尾添加角度值,例如:

  • 高角度
  • 低角度
  • 鸟瞰图
  • 虫眼视图
  • 面对面
  • 过肩射击
  • 或者可以指定度数(25度角)

现在是时候检查一下了。假设我们想节省 食品造型师 并从 这个菜单 .对于我们的提示,我们将使用菜单中的原始描述。

Chicken Caesar. Source: thebigsalad.com

高品质的沙拉配火箭莴苣、帕尔马干酪、美味的烤鸡胸肉、丰盛的面包块、凯撒酱,放在白盘子上,放在橡木桌上 .

从和 2

: 最好在图片中显示整个盘子: 高质量的沙拉配火箭莴苣、帕尔马干酪、美味的烤鸡胸肉、丰盛的面包丁、凯撒酱,放在白盘子上,放在橡木桌上,广角镜头。

从和 2

: 让我们试着把盘子缩小一点: 高品质的沙拉配火箭莴苣、帕尔马干酪、香喷喷的烤鸡胸肉、丰盛的面包丁、凯撒酱,放在白盘子上,放在橡木桌上,超远景,远景

从 E 2:

: 角度呢? 高品质沙拉配火箭莴苣、帕尔马干酪、香喷喷的烤鸡胸肉、丰盛的面包丁、凯撒酱,放在白盘子上,放在橡木桌上,超远景,广角,25 度角

从 E 2:

: 和相机视图?一个 高品质沙拉配火箭莴苣、帕尔马干酪、香喷喷的烤鸡胸肉、丰盛的油炸面包丁、凯撒酱,放在白色圆盘上,放在橡木桌上,极长镜头,广角镜头,25 度角,左侧看法

从 E 2:

至于我,它看起来比原始图像更漂亮。再一次,我们有几乎无穷无尽的机会来改善我们的形象。我们将在下一部分继续我们的实验。

是否可以让一个人在土星环上骑行/跑步/行走?

简短的回答是我不知道。真的。而且我不知道为什么我一直在徒劳地尝试得到它,但我的大脑产生了一个非常惊人的图像,所以我想看看它。

我已经做了很多请求,但我仍然没有得到想要的输出。在这里您还可以看到结果。

宇航员在土星环上骑摩托车,数字艺术 .

从 E 2:

宇航员在土星环上奔跑,数字艺术 .

从 E 2:

走在土星环上的宇航员,数字艺术 .

从 E 2:

你可以看到,如何设计一个提示让一个人进入土星环的任务仍然是开放的:)

在这里,我们考虑了图像生成的基本概念,例如构图、比例、接近度和位置。我们有非常有趣的图像,我们可以尝试使用这些图像进行改进 灯光风格。

此外,尽管有所有这些建议,但您需要记住,您不应该害怕模糊不清。您只需要尝试不同的方法,看看会发生什么。好吧,最后,你会遇到 DALL·E 2 的方法,可能有一天你会遇到 将在艺术比赛中获得第一名 😃

文学

  1. 从 E 2 - https://openai.com/dall-e-2/
  2. 使用 CLIP Latents 生成分层文本条件图像 — https://arxiv.org/pdf/2204.06125.pdf
  3. 从自然语言监督中学习可迁移的视觉模型 — https://arxiv.org/pdf/2103.00020.pdf
  4. DALL·E 2 解绑 — https://bakztfuture.substack.com/p/dall-e-2-unbundling
  5. DALL E 2 提示书 - https://pitch.com/v/DALL-E-prompt-book-v1-tmd33y

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/15582/10240510

posted @   哈哈哈来了啊啊啊  阅读(404)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示