近年来,生成模型领域在见证了GAN和扩散模型的辉煌之后,迎来了一股新的浪潮——基于连续归一化流(CNF)的模型。特别是Flow Matching (FM), Rectified Flow (RF) 和 Reflow这一系列工作的出现,通过解决传统流模型训练和采样的痛点,实现了生成质量与采样速度的显著突破。本文旨在梳理这三者之间的脉络关系,解析其技术核心,帮助读者理解这一条清晰的技术演进路线。
引言
在追求高质量、高效率的生成模型道路上,扩散模型(Diffusion Models)无疑是当前的一座高峰。然而,其迭代式的采样过程带来的高昂时间成本,也限制了其在诸多实时应用场景中的部署。一个核心问题随之而来:我们能否构建一个模型,既拥有媲美扩散模型的生成能力,又具备GAN一样的高效采样速度?
Flow-based模型为此提供了一条极具潜力的解决路径。而Flow Matching、Rectified Flow与Reflow的相继提出,正是这条路径上的三个关键里程碑。它们并非孤立的技术,而是一个层层递进、不断优化的演进过程。
一、基石:Flow Matching (FM) - 一种高效的流模型训练框架
要理解后续的工作,首先必须掌握Flow Matching (FM) 的核心思想。传统的连续归一化流(CNF)在训练时,需要依赖常微分方程(ODE)求解器来计算精确的概率对数似然,这一过程计算量巨大且数值不稳定。
Flow Matching 则另辟蹊径,提出了一种simulation-free的训练范式。它将复杂的概率流学习问题,巧妙地转化为了一个简单直接的向量场回归问题。
核心思想:
给定源分布π0\pi_0π0(通常是标准正态分布)中的样本x0x_0x0和目标分布π1\pi_1π1(真实数据)中的样本x1x_1x1,FM的目标是学习一个时变向量场(vector field)v(x,t)v(x, t)v(x,t),这个向量场能够驱动一个ODE,将x0x_0x0在t=0t=0t=0时平滑地变换到t=1t=1t=1时的x1x_1x1。
关键在于,FM通过一个回归损失函数,直接让神经网络预测的向量场vθ(xt,t)v_\theta(x_t, t)vθ(xt,t)去“匹配”一个预先定义好的、连接x0x_0x0和x1x_1x1的条件概率路径πt(x∣x0,x1)\pi_t(x|x_0, x_1)πt(x∣x0,x1)上的目标向量场ut(x∣x0,x1)u_t(x|x_0, x_1)ut(x∣x0,x1)。
LFM=Et,πt(x∣x0,x1),π(x0,x1)[∥vθ(x,t)−ut(x∣x0,x1)∥2]\mathcal{L}_{FM} = \mathbb{E}_{t, \pi_t(x|x_0, x_1), \pi(x_0, x_1)} [\| v_\theta(x, t) - u_t(x|x_0, x_1) \|^2]LFM=Et,πt(x∣x0,x1),π(x0,x1)[∥vθ(x,t)−ut(x∣x0,x1)∥2]
这个框架的革命性在于:
- 无需ODE求解:训练过程中完全摆脱了对ODE求解器的依赖,使得训练过程变得极其高效和稳定。
- 高度灵活:可以选择不同的条件概率路径πt\pi_tπt,为后续的优化(如Rectified Flow)埋下了伏笔。
简单来说,Flow Matching是一个通用的、强大的训练方法论,它为后续流模型的构建铺平了道路。
二、目标:Rectified Flow (RF) - 追求最“直”的变换路径
既然Flow Matching允许我们选择任意路径,那么一个自然的问题是:什么样的路径是“最优”的?
Rectified Flow (RF) 给出了一个清晰的答案:直线路径。
想象一下,如果从随机噪声到目标图像的变换路径是一条笔直的线段,那么在采样时,我们就不需要用很多小步长去小心翼翼地逼近一条弯曲的轨迹。理论上,一个足够大的步长,甚至一步就能从起点到达终点。
核心思想:
RF是FM框架下的一个特定目标实现。它通过最简单的配对方式——从源分布和目标分布中随机抽取样本对(x0,x1)(x_0, x_1)(x0,x1),然后强制模型学习连接这对样本的直线路径上的向量场。这条直线路径可以表示为:
xt=(1−t)x0+tx1,t∈[0,1]x_t = (1-t)x_0 + t x_1, \quad t \in [0, 1]xt=(1−t)x0+tx1,t∈[0,1]
对应的目标向量场也极其简单,就是这两个点的差值:ut=x1−x0u_t = x_1 - x_0ut=x1−x0。
带来的优势:
- 采样效率极大提升:由于路径是近似直线的,使用简单的欧拉法进行采样时,可以用非常少的步数(Number of Function Evaluations, NFE),例如10步甚至更少,就能生成高质量的样本。
- 一步生成潜力:在理论上,如果路径完全笔直,一步欧拉法(x1=x0+v(x0,0)x_1 = x_0 + v(x_0, 0)x1=x0+v(x0,0))就能完成生成,这为实现超实时生成提供了可能。
- 与最优传输的联系:RF被证明与最优传输(Optimal Transport)问题有着深刻的内在联系,为模型提供了坚实的理论基础。
因此,Rectified Flow不再仅仅是一个训练框架,而是一个以“路径拉直”为明确目标的具体模型,它将FM的潜力转化为了实实在在的采样效率。
三、优化:Reflow - 迭代式的路径再矫正
尽管RF的目标是学习直线路径,但在单次训练中,由于数据分布的高度复杂性,学习到的ODE轨迹场仍然会存在一定的弯曲。我们能否让这条路径变得更直呢?
Reflow 技术为此而生。它不是一个全新的模型,而是一种迭代式的模型优化(或蒸馏)流程。
核心流程:
- 训练一个初始RF模型:我们称之为“教师模型” (M0M_0M0)。
- 生成新的数据对:使用M0M_0M0从噪声x0x_0x0生成一批样本x1′x_1'x1′。现在我们有了一批新的、由模型自身生成的“输入-输出”对 (x0,x1′)(x_0, x_1')(x0,x1′)。
- 重新训练:使用这些新的数据对(x0,x1′)(x_0, x_1')(x0,x1′)去训练一个全新的RF模型,我们称之为“学生模型” (M1M_1M1)。
这个过程为什么有效?因为由M0M_0M0生成的(x0,x1′)(x_0, x_1')(x0,x1′)数据对,其内在的变换路径已经比随机采样的真实数据对要“直”得多了。让M1M_1M1在这些更加“规整”的数据上进行学习,其学到的向量场自然会更加接近理想的直线状态。
这个过程可以重复多次(Reflow 2次,3次…)。每一次Reflow,都像是在对模型的变换路径做一次“矫正”和“提纯”。
带来的提升:
- 极致的采样加速:每经过一轮Reflow,模型达到同等生成质量所需的采样步数(NFE)都会显著下降。经过2-3轮Reflow的模型,通常可以实现高质量的一步生成。
- 性能提升:在一些任务上,Reflow不仅能提升速度,还能小幅提升生成的样本质量(如FID分数)。
Reflow是一种精益求精的优化技术,它将RF的“路径拉直”理念贯彻到底,最终实现了生成模型在速度和质量上的又一次飞跃。
总结:三者的关系
我们可以用一个简单的关系图来总结这三者的关系:
Flow Matching (通用训练框架) → Rectified Flow (追求直线路径的目标模型) → Reflow (迭代优化技术)
概念 | 定位 | 核心思想 | 主要贡献 |
---|---|---|---|
Flow Matching | 训练框架 | 将流模型训练转化为向量场回归 | 解决了CNF训练不稳、计算量大的问题 |
Rectified Flow | 具体模型/目标 | 学习分布之间的直线变换路径 | 大幅提升采样效率,实现少步生成 |
Reflow | 优化技术 | 利用模型自身生成的数据对,迭代拉直路径 | 实现极致的采样加速,达成高质量一步生成 |
从FM的范式革新,到RF对效率的极致追求,再到Reflow的精细打磨,我们看到了一条清晰且优雅的技术演进路线。对于追求模型效率和性能的开发者与研究者而言,理解这一脉络是至关重要的。