如何让 DALL·E 2 更懂你。第1部分
如何让 DALL·E 2 更懂你。第1部分
The image was generated by 从和 2
几周前,我终于可以访问 DALL·E 2,我非常激动。当我第一次尝试它时,我并没有完全印象深刻,因为我的搜索结果有点令人失望。然而,由于它背后的技术,它看起来仍然令人难以置信,所以我继续测试它。一段时间后,我意识到我的不好,这就是交易。仅仅发出随机搜索请求是不够的,它应该有更好的结构。所以今天我要给你一些建议,如何让你与 DALL·E 2 的互动更有效。
让我给你一个关于 DALL·E 2 架构的鸟瞰图,它将帮助你更深入地理解文本预处理。
A high-level overview of unCLIP. Source: arxiv.org
让我们深入了解虚线下方的训练过程,看看主要步骤:
- 第一步,我们使用 文本编码器 获取输入文本的 CLIP 嵌入;
- 然后在生成 CLIP 图像嵌入之前将文本嵌入馈送到扩散;
- 最后,我们使用图像解码器来生成以 CLIP 图像嵌入为条件的图像。
关于几句话 夹子 (对比语言-图像预训练)。的主要任务 夹子 是将图像与其相应的标题匹配:它学习同一抽象对象的文本和视觉表示之间的联系。
所以我们需要查看用于 CLIP 训练的数据。该数据集由从 Internet 上各种公开可用资源收集的 4 亿对(图像、文本)构建而成。
One random (non-cherry-picked) prediction of CLIP. Source: openai.com
在最初的 CLIP 论文中,作者提到了一个问题: 在训练数据集中,与图像配对的文本只是一个单词的情况相对较少 .在这里,他们使用提示模板解决了问题 “一张{标签}的照片”。 此外,他们强调有时在“快速工程”期间指定类别是有帮助的。
例如在 Oxford-IIIT Pets 上,使用“一张 {label} 的照片,一种宠物”。帮助提供上下文效果很好。
由于 CLIP 是使用来自互联网的数据进行预训练的,因此许多文本提示具有诸如创建/绘制/渲染图像的艺术风格、创建/发布/发布图像的公司/组织、创建者是谁等特征等。这就是为什么训练数据集包含一堆格式如下的提示: “{subject}, {camera angle}”, “{subject}, {style}”, “{subject}, {time}”等 .
在继续之前,我想向您展示我的第一个提示,当时我不知道如何提出请求。下面你将看到我与 DALL·E 2 关系的第一阶段( 我的请求以斜体显示 )。
我 : 我想看看 最可怕的怪物。
从和 2 :
我 : 能不能给我看看 巨大的蓝猫在海洋中起飞?
从和 2 :
我 : 怎么样 机器人梦见电羊的赛博朋克插图?
从和 2 :
你是否期望得到这样的东西?坦率地说,我没有。即使第二次尝试的第四只猫让我想起了一点 宫崎骏 和他的 龙猫 ,在我看来很平淡。而且它绝对不像 DALL·E 2 演示中的图片。我花了一段时间让我的艺术看起来更好,我向你保证这并不难。您只需要记住一些时刻来密切关注我们将在下面介绍的内容。
要记住的 6 个主要提示
当您要发送请求时,您需要回答一些问题,这可能有助于您提出更清晰的请求:
- 图像是由什么组成的? (作品)
- 哪些元素更重要,哪些元素更重要? (规模)
- 这些元素如何相互关联? (接近)
- 这张图应该是从什么角度拍摄的? (位置)
- 元素应该如何点亮? (灯光)
- 什么形象风格最合适? (风格)
在这里,我想讨论此列表中的前 4 个步骤。我们将从它们开始,因为这些是制作图像的基本概念。至于其他 2 个,将在下一部分中讨论。
作品
照片构图 是框架内视觉元素的排列。
“这是一个令人愉悦的矩形内物体组织”——摄影师 亚当朗
一般来说,有几条关于构图的重要规则。但它们中的大多数只能用于创建照片。
但是,您可以在使用 DALL·E 2 创建图像时遵循一些概念。这些概念如下:
- 构成元素(线条、形状和形式、价值、空间、颜色、纹理)。
- 构图原则(平衡、比例、和谐)
您可以在文本提示中改变所有这些。让我们看看它在实践中是如何工作的。
我 : 我想看看 一个人在太空边缘骑摩托车,数字艺术。
从和 2 :
我 : 好的,让我们添加一些细节. 给我看 一个人在太空边缘骑摩托车,朝着一个星球,数字艺术
从和 2 :
我 : 如果我们在同一张照片上加一条龙,你怎么看?所以我想得到 一个人在太空边缘骑着摩托车,试图摆脱白龙,走向一个星球,阴影,数字艺术。
从和 2 :
与第一张图片不同,这里我们的构图更加全面。我们可以继续尝试使我们的构图更复杂。所以,在这里我想继续并考虑下一部分处理 规模, 接近度和位置 .
规模 & 接近 & 位置
这三个概念密切相关,因为它们负责空间中物体之间的联系。尽管如此,让我们尝试定义每个概念,然后将它们视为一个实体。
规模 是与构图一起重要的元素。它有助于增加照片、绘画或绘图中的 3D 空间。你可以调整你的 规模 使用一些大小词。
至于 接近 ,通常看一张照片,我们可以了解对象之间的关系以及与其他对象相比哪个更重要。您可能还想关注对象的某些特殊部分。实际上, 接近 是帮助我们做到这一点的事情。可以使用以下值:
- (极端)特写镜头
- 中景
- (极端)广角镜头
- (极端)远射
- 全拍
位置 (角度和相机视图)也是非常重要的概念,因为它可以帮助您展示对象之间的比例。您可以在提示末尾添加角度值,例如:
- 高角度
- 低角度
- 鸟瞰图
- 虫眼视图
- 面对面
- 过肩射击
- 或者可以指定度数(25度角)
现在是时候检查一下了。假设我们想节省 食品造型师 并从 这个菜单 .对于我们的提示,我们将使用菜单中的原始描述。
Chicken Caesar. Source: thebigsalad.com
我 : 高品质的沙拉配火箭莴苣、帕尔马干酪、美味的烤鸡胸肉、丰盛的面包块、凯撒酱,放在白盘子上,放在橡木桌上 .
从和 2 :
我 : 最好在图片中显示整个盘子: 高质量的沙拉配火箭莴苣、帕尔马干酪、美味的烤鸡胸肉、丰盛的面包丁、凯撒酱,放在白盘子上,放在橡木桌上,广角镜头。
从和 2 :
我 : 让我们试着把盘子缩小一点: 高品质的沙拉配火箭莴苣、帕尔马干酪、香喷喷的烤鸡胸肉、丰盛的面包丁、凯撒酱,放在白盘子上,放在橡木桌上,超远景,远景
从 E 2:
我 : 角度呢? 高品质沙拉配火箭莴苣、帕尔马干酪、香喷喷的烤鸡胸肉、丰盛的面包丁、凯撒酱,放在白盘子上,放在橡木桌上,超远景,广角,25 度角
从 E 2:
我 : 和相机视图?一个 高品质沙拉配火箭莴苣、帕尔马干酪、香喷喷的烤鸡胸肉、丰盛的油炸面包丁、凯撒酱,放在白色圆盘上,放在橡木桌上,极长镜头,广角镜头,25 度角,左侧看法
从 E 2:
至于我,它看起来比原始图像更漂亮。再一次,我们有几乎无穷无尽的机会来改善我们的形象。我们将在下一部分继续我们的实验。
是否可以让一个人在土星环上骑行/跑步/行走?
简短的回答是我不知道。真的。而且我不知道为什么我一直在徒劳地尝试得到它,但我的大脑产生了一个非常惊人的图像,所以我想看看它。
我已经做了很多请求,但我仍然没有得到想要的输出。在这里您还可以看到结果。
我 : 宇航员在土星环上骑摩托车,数字艺术 .
从 E 2:
我 : 宇航员在土星环上奔跑,数字艺术 .
从 E 2:
我 : 走在土星环上的宇航员,数字艺术 .
从 E 2:
你可以看到,如何设计一个提示让一个人进入土星环的任务仍然是开放的:)
在这里,我们考虑了图像生成的基本概念,例如构图、比例、接近度和位置。我们有非常有趣的图像,我们可以尝试使用这些图像进行改进 灯光 和 风格。
此外,尽管有所有这些建议,但您需要记住,您不应该害怕模糊不清。您只需要尝试不同的方法,看看会发生什么。好吧,最后,你会遇到 DALL·E 2 的方法,可能有一天你会遇到 将在艺术比赛中获得第一名 😃
文学
- 从 E 2 - https://openai.com/dall-e-2/
- 使用 CLIP Latents 生成分层文本条件图像 — https://arxiv.org/pdf/2204.06125.pdf
- 从自然语言监督中学习可迁移的视觉模型 — https://arxiv.org/pdf/2103.00020.pdf
- DALL·E 2 解绑 — https://bakztfuture.substack.com/p/dall-e-2-unbundling
- DALL E 2 提示书 - https://pitch.com/v/DALL-E-prompt-book-v1-tmd33y
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通