ColorFlow：基于检索增强的黑白漫画上色模型（包含论文代码详解）

Sherlock Ma

已于 2024-12-22 20:44:45 修改

阅读量1.7k

点赞数 22

CC 4.0 BY-SA版权

分类专栏： AIGC 图像编辑 stable diffusion 文章标签：人工智能深度学习 AIGC AI作画

于 2024-12-22 20:44:04 首次发布

本文链接：https://blog.csdn.net/sherlockMa/article/details/144610912

1.简介

这篇文章介绍了一个名为ColorFlow的先进模型，它专门设计用于给黑白图像序列上色，同时精确保持人物和对象的身份特征。ColorFlow模型的意义在于它能够利用参考图像中的颜色信息，为漫画、动画制作和黑白电影着色等任务提供强大的技术支持。

这项技术的应用不仅能够提高内容创作的效率，还能够增强最终作品的艺术表现力和观众的沉浸感，为艺术产业带来创新和活力。通过这项工作，ColorFlow框架不仅提升了艺术作品的创作效率和质量，而且扩展了艺术创作的边界，为艺术产业的数字化转型和创新发展注入了新的活力。

项目主页：ColorFlow

在线演示：https://huggingface.co/spaces/TencentARC/ColorFlow

代码地址：https://github.com/TencentARC/ColorFlow

权重地址：https://huggingface.co/TencentARC/ColorFlow/tree/main

论文地址：https://arxiv.org/abs/2412.11815

2.效果展示

从左到右依次为：原图、和彩色参考图拼接的图、彩色输出图

3.论文解析

简介

最近，随着扩散模型带来前所未有的图像生成能力，人们对使用扩散模型进行上色的兴趣越来越大。然而，之前的大多数工作只考虑基本的文本到图像的范式，而没有参考颜色信息，这与实际应用相去甚远。虽然最近对AnimeDiffusion的研究已经探索了基于参考图像的动漫角色着色，但它仅支持对具有单一ID图像进行着色。

在这项工作中，作者引入了一个新的任务，基于参考的图像进行着色，其目的是将一系列的黑白图像转换为彩色图像。这一任务有很大的市场需求，但尚未解决。

针对基于参考序列图像着色方法的不足，作者提出了一种适合工业应用的三阶段着色方法ColorFlow。分别是：

检索增强管道（RAP）：从参考图像池中提取相关的彩色图像块。
- 受检索增强生成（RAG）的启发，RAP在输入图像和参考池之间匹配ID相关的图像块，而无需对每个ID进行微调或进行显式ID embedding提取，使其更加方便。
上下文着色管道（ICP）：利用强大的上下文学习来准确检索颜色标识，并使用双分支设计执行着色。
- 着色模块核心部分采用两分支设计，分别实现图像颜色标识对应和着色。这种结构允许基础扩散模型的更深层更好地处理身份信息，同时保持其图像生成和着色能力。
- 利用扩散模型中的自注意机制，作者将参考图像和灰度图像放在同一画布上，使用一个复制权重的副本模型来提取它们的特征，并将这些特征逐层馈送到扩散模型中进行着色。
- 对于着色，我们使用低秩自适应（LoRA）来微调预训练的基础扩散模型，保留其着色功能。
引导超分辨率管道（GSRP）：上采样以生成高分辨率彩色图像。
- 作者还引入了引导超分辨率流水线，以减少彩色化过程中的结构细节失真。通过将高分辨率黑白白色漫画与低分辨率彩色输出集成，GSRP增强了细节恢复并提高了输出质量。

我们将在下文进行更详细的介绍。

作者构建了一个由30个漫画章节组成的数据集ColorFlow-Bench，每个章节包含50个白色漫画和40个参考图像。结果表明，ColorFlow在像素级和图像级评估中的五个指标上均实现了最先进的性能。

方法

本工作的目标是使用彩色图像作为参考对黑白白色图像进行着色，确保整个图像序列中人物、对象和背景的一致性。如图所示，作者的框架由三个主要组件组成：检索增强管道，上下文着色管道和引导超分辨率管道。

检索增强管道

检索增强管道（RAP）旨在识别和提取相关的彩色参考图，以指导着色过程。

为了实现这一点，首先将输入的黑白图像分成四个重叠的块：左上、右上、左下和右下。每个块覆盖原始图像尺寸的四分之三，以确保保留重要细节。对于每个彩色参考图像，分别创建五个patch：相同的四个重叠patch和一张完整的图像，以提供一组全面的参考数据。
接下来，作者采用预训练的CLIP图像编码器来为输入图像的补丁生成图像嵌入Ebw，并为参考补丁生成Eref。这些嵌入定义如下： $E_{bw}=f_{CLIP}(P_{bw}) \: and \:E_{ref}=f_{CLIP}(P_{ref})$ ，其中Pbw表示黑白patch，Pref表示彩色参考patch。
对于每一个来自输入图像的四个patch，我们计算其嵌入与参考patch的嵌入之间的余弦相似度S： $S(a,b)=\frac{a\cdot b}{\left \| a \right \|\cdot \left \| b \right \|}$
我们为每个query patch定义前三个相似的patch如下： $Top_3(E^{(i)}_{bw})=\left \{ E^{(j_1)}_{ref},E^{(j_2)}_{ref},E^{(j_1)}_{ref}|j_k\in argmax_k S(E^{(i)}_{bw},E^{(k)}_{ref}),k=1,2,3\right \}$ ，对于i ∈ {0，1，2，3}，其中 $E^{(i)}_{bw}$ 表示第i个query patch的嵌入， $E^{(k)}_{ref}$ 表示对应的参考patch的嵌入。
在识别每个query区域的前三个相似patch后，我们将这些选定的patch拼接到黑白图像的左上角、右上角、左下角和右下角，以创建合成图像 $C_{bw}$ ，如图所示。这种空间布置确保了检索到的颜色信息的准确放置，增强了着色过程的上下文相关性。此外，我们通过类似地将对应于黑白图像块的原始彩色版本拼接在一起来构造（ $C_{color}$ ）。这与（ $C_{bw}$ ）形成数据对，用于随后的着色训练。 （ $C_{bw}$ 是输入， $C_{color}$ 是标签）

通过有效地收集最相关的上下文颜色信息，检索增强管道为该框架的下一阶段奠定了基础，确保生成的颜色与参考图像和谐一致。

上下文着色管道

我们引入了一个称为着色引导器（Colorization Guider）的辅助分支，它有助于将条件信息纳入模型。该分支通过复制UNet中所有卷积层的权重来初始化。

着色引导器的输入包括噪声潜变量Zt、合成图像 $C_{bw}$ 经变分自动编码器处理后的输出 $VAE(C_{bw})$ 以及下采样后的掩码M。这些组成部分被连接起来，形成模型的综合输入。

来自着色引导器的特征将逐步集成到扩散模型的U-Net中，从而实现密集的逐像素条件嵌入。此外，我们利用轻量级LoRA（低秩自适应）方法来微调着色任务的扩散模型。

损失函数可以形式化如下： $L_{Color}=E_{t,C_bw,\epsilon _t}\left \| \epsilon _t-\epsilon _{\theta }(\left \{ VAE(C_{bw}),M,Z_t \right \} ,t)\right \|^2_2$ ，在训练期间，Zt通过前向扩散过程从VAE（ $C_{color}$ ）导出。该训练目标使模型能够有效地对输入潜在空间进行去噪，并在参考图像的指导下逐渐从黑白白色输入重建所需的彩色输出。

虽然我们没有显式地将彩色参考图像中的实例映射到黑白图像中的实例，但检索机制确保参考图像包含相似的内容。因此，模型自然地学习利用来自检索到的引用的上下文信息来准确地对黑白白色图像进行着色。

时间步移位采样。我们通过调整时间步长t′来修改采样策略： $t'=\frac{e^\mu }{e^\mu +(\frac{T}{t}-1)}T,\; \; \; t\sim \textup{u}(0,T]$ ，这个公式的目的是在生成过程中给予高时间步更高的权重，从而增强彩色化过程的效果。通过调整 µ 的值，可以控制高时间步在采样中的重要性。