文本生成图像技术杂谈

最新推荐文章于 2025-01-01 16:00:00 发布

wujianming_110117

最新推荐文章于 2025-01-01 16:00:00 发布

阅读量2.8k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：计算机视觉，自动驾驶，深度学习成像技术摄像头文章标签：计算机视觉深度学习人工智能

吴建明

本文链接：https://blog.csdn.net/wujianing_110117/article/details/125342722

文本生成图像技术杂谈
艺术创作的事，以后人类只要动手打几个字，其他的交给 AI 就行了。
自然语言与视觉的次元壁正在被打破。这不，OpenAI 最近连发大招，提出两个连接文本与图像的神经网络：DALL·E 和 CLIP。DALL·E 可以基于文本直接生成图像，CLIP 则能够完成图像与文本类别的匹配。OpenAI 的新工作引起了 AI 圈的一阵欢呼。
Coursera 创始人、斯坦福大学教授吴恩达也表示祝贺，并选出了自己喜欢的「蓝色衬衫 + 黑色长裤」AI 设计。
参考文献链接
https://mp.weixin.qq.com/s/JEugZJr1q2U2GyIViFhPHg
https://mp.weixin.qq.com/s/P33fhrOJrug3Df-EFyTaXg
在这里插入图片描述

那么，大佬打算购入几件其他「蓝色」的衬衫吗
OpenAI 联合创始人、首席科学家 Ilya Sutskever 表示：人工智能的长期目标是构建「多模态」神经网络，即 AI 系统能够学习多个不同模态的概念（主要是文本和视觉领域），从而更好地理解世界。而 DALL·E 和 CLIP 使更接近「多模态 AI 系统」这一目标。
在这里插入图片描述

第一个神经网络 DALL·E 可以将以自然语言形式表达的大量概念转换为恰当的图像。值得注意的是，DALL·E 使用了 GPT-3 同样的方法，只不过 DALL·E 将其应用于文本 - 图像对。
在这里插入图片描述

DALL·E 示例。给出一句话「牛油果形状的椅子」，就可以获得绿油油、形态各异的牛油果椅子图像。
另一个神经网络 CLIP 能够可靠地执行一系列惊人的视觉识别任务。给出一组以语言形式表述的类别，CLIP 能够立即将一张图像与其中某个类别进行匹配，而且不像标准神经网络那样需要针对这些类别的特定数据进行微调。在 ImageNet 基准上，CLIP 的性能超过 ResNet-50，在识别不常见图像任务中的性能远超 ResNet。
DALL·E：从文本生成图像
DALL·E 是 GPT-3 的 120 亿参数版本，经文本 - 图像对数据集训练后，可基于文本描述生成图像。DALL·E 这个名称来源于皮克斯动画经典作品《机器人总动员（WALL·E）》。
有意思的是，还可以将动物和物体拟人化，将一些无关的概念以一种合理的方式组合起来。
比如，穿着芭蕾 tutu 裙遛狗的胡萝卜：
在这里插入图片描述

细细观察，可以看出 DALL·E 是怎样将人体构造迁移到其他生物的。如果想让一支胡萝卜喝拿铁咖啡或骑独轮车，DALL·E 会把生成图像中的方巾、手脚放在合理的位置。
还比如，生成写着 OpenAI 的商店招牌：
在这里插入图片描述

通常 DALL·E 写入的字符串越长，成功率会降低一些。而文字有重复的时候，成功率会变高。尽管样本变得更简单，但随着采样温度的降低，成功率有时候会提升。
和 GPT-3 一样，DALL·E 是一种 Transformer 语言模型。以包含多达 1280 个 token 的单数据流形式接收文本和图像，并利用最大似然进行训练，逐个生成所有 token。
token 是来自不连续词汇表的任意符号。对于人类来说，每个英文字母都是来自字母表的 token。DALL·E 的词汇表有文本和图像的 token。每个图像的文本描述使用最大 256BPE 编码的 token 表示，词汇表的大小是 16384；图像则使用 1024 个 token 表示，词汇表大小是 8192。
在最新博客中，OpenAI 详细介绍了 DALL·E 的「百变功能」，每一段文字的生成示例展示了 512 个生成结果中的前 32 名（根据 CLIP 的排序，过程中没有任何人工参与挑选的步骤）。
控制属性
在修改对象属性的能力方面，研究者对 DALL·E 进行了测试。DALL·E 可以用多边形形状渲染熟悉的对象，甚至是在现实世界中不太可能发生的情况。比如这些诡异的「绿色闹钟」：
在这里插入图片描述

绘制多物体图像
同时控制多个对象及其属性、空间关系，是一个新的挑战。比如「戴红色帽子、黄色手套，穿蓝色衬衫、绿色裤子的刺猬」，DALL·E 生成效果如下：
在这里插入图片描述

尽管 DALL·E 对少量物体的属性和位置提供了一定程度的可控性，但成功率可能仍取决于文本的表述方式。此外，DALL·E 还很容易混淆不同对象及其颜色之间的关联。
可视化透视图和三维图
DALL·E 还可以控制场景视点和渲染场景的 3D 样式，例如：
在这里插入图片描述

不同角度的美洲狮。
可视化内外部结构
DALL·E 还能够渲染出横截面视图的内部结构，以及通过微距相片展现事物的外部结构。例如核桃的横截面视图：
在这里插入图片描述

推断语境细节
文本转图像任务是非明确指定的，一个文本描述通常对应许多合理图像，因此图像并非唯一指定的。例如，对于文本描述「坐着看日出的水豚鼠」，可能需要根据水豚鼠的方位画出阴影，尽管这并没有在文本描述中明确提及。DALL·E 能够解决以下三种情景中的非指定问题：改变风格、设置和时间；在不同场景中绘制相同的对象；生成带有特定文本的对象（例如上文提到的写着 OpenAI 的商店招牌）。
下图展示了 AI 生成的「看日出的水豚鼠」，这些图像具备不同的风格，如波普艺术风格、超现实主义风格、浮世绘风格等等。
在这里插入图片描述

时尚和室内设计
DALL·E 还可以应用到时尚设计与室内设计，例如身穿蓝色衬衫和黑色裤子的橱窗模特：
在这里插入图片描述

将不相关的概念结合起来
语言的复合性使得可以将多个概念组合在一起来描述真实和想象中的事物。而 DALL·E 也具备将不同 idea 结合起来并合成物体的能力，甚至有的物体在现实世界中并不存在。例如，将多种不同概念的特点迁移到动物身上，从不相关的概念中汲取灵感来设计产品（例如本文开头提到的牛油果椅子）。
下列示例就将「竖琴」和「蜗牛」这两个八竿子打不着的事物组合到了一起：
在这里插入图片描述

动物插图
DALL·E 不仅能将不相关的概念连接到一起，还能将这一能力应用到艺术领域。例如，动物和物体的拟人化版本、动物嵌合体和 emoji。
下图展示了「长颈鹿龟」这一新物种：
在这里插入图片描述

奇怪的物种又增加了。
零次视觉推理
只需给出文本描述或提示，GPT-3 就能执行多种任务，且无需额外训练。这种能力叫做「零次推理」（zero-shot reasoning）。而 DALL·E 将该能力扩展到视觉领域，在给出恰当提示的情况下，能够执行多种图像翻译任务。
例如给出文本「为上方猫图提供简笔画版本」，会得到：
在这里插入图片描述