LoRA 微调无需 GPU:一种适用于 CPU 的高效元生成 LLM 框架

Reza Arabpour 12 { }^{12} 12 Haitz Sáez de Ocáriz Borde 3 { }^{3} 3 Anastasis Kratsios 12 { }^{12} 12

摘要

低秩适配器(LoRAs)通过实现参数高效的更新,彻底改变了大型语言模型(LLMs)的微调。然而,它们的广泛采用仍然受到基于GPU训练的限制。在这项工作中,我们提出了一种理论上可靠的方法来进行LoRA微调,专为计算资源有限的用户设计,特别是那些只能使用标准笔记本电脑CPU的用户。我们的方法学习一个元操作符,该操作符通过利用Mistral-7B-Instruct-v0.2模型的大量预训练适配器库,将任何以概率分布表示的输入数据集映射到一组LoRA权重。与执行新的基于梯度的更新不同,我们的流水线直接在CPU上通过轻量级组合现有LoRA来构建适配器。虽然由此产生的适配器无法达到GPU训练模型的性能水平,但它们在下游任务中始终优于基础的Mistral模型,提供了一种实用且易于访问的传统基于GPU微调的替代方案。

1. 引言

随着模型和数据集规模的扩大,对大多数从业者来说,完全微调变得越来越不现实。最大的基础模型——通常由拥有几乎无限计算能力的技术巨头构建(Touvron等,2023;OpenAI,2023;Bai等,2023;Qwen等,2025;DeepSeek-AI等,2025)——可能有数千亿个参数,使得个人进行传统微调的成本高得令人望而却步。参数高效微调(PEFT)方法(He等,2022;Pfeiffer等,2020;Ding等,2022;Yu等,2022;Han等,2024)提供了一种解决方案:与其更新所有权重,它们只调整一小部分子集,从而大幅降低计算和存储成本,同时保持合理的性能。其中,低秩适配器(LoRA)(Hu等,2021)方法因其简单性和出乎意料的强大效果而成为标准。尽管如此,对于现代大规模LLMs来说,LoRA微调仍然可能是漫长而沉重的。因此,以下问题变得必要:

是否可以在不需要GPU的情况下,为新任务生成新的低秩适配器以微调大型语言模型?

我们通过引入一种针对仅使用CPU用户的零样本LoRA元生成过程来解决这一问题。我们的方法以新颖的数据集作为输入,每个数据集可能包含可变数量的实例。然后输出一个预训练LLM的LoRA权重,其中预测依赖于从现有LoRA库(Gabrielsson等,2024)中的实例组合。重要的是,这些组合的执行方式足够轻量,可以在当代标准CPU上几分钟内完成计算(见附录C表2),而无需GPU集群。

主要贡献 我们的原理性LoRA元生成流水线提供了轻量级、“廉价”的LoRAs,其性能接近那些GPU微调模型(这些模型对许多人来说通常是不可及的),并优于基础的“非微调”模型。这些贡献在命题1和定理1中得到了理论支持。两者一起表明,在高概率下,设计用于在CPU上高效运行的ReLU多层感知机(MLP)架构可以识别组合现有LoRA的最佳系数。这些最佳的LoRA混合系数,如公式(3)中所定义(代表预训练LoRA参数的加权和),是根据给定的数据集对齐特征确定的。这一过程有效地最小化了下游任务损失,即量化模型在新特定任务上的误差。此外,我们的工作还通过轻量级、无神经网络的替代方案(例如注意力或归一化方法)提供了近乎最优的闭式解。有趣的是,我们的实验

1 { }^{1} 1 数学系,麦克马斯特大学,加拿大汉密尔顿 2 { }^{2} 2 向量研究所,加拿大 多伦多 3 { }^{3} 3 牛津大学,英国牛津。通讯作者:Reza Arabpour arabpour@mcmaster.ca,Anastasis Kratsios kratsioa@mcmaster.ca,Haitz Sáez de Ocáriz Borde chri6704@ox.ac.uk
显示,我们管道的无神经网络变体表现与理论上近似最优的神经网络解决方案(基于MLP的方法)相当。

第2节讨论了与LoRA相关的文献。我们在第3节中介绍了将数据集形式化为概率分布的预备知识。第4节展示了我们的LoRA生成管道。它们各自的理论保证在第5节详细说明,并在第6节中进行了实验验证。

2. 相关工作

自从引入以来,LoRA(Hu等,2021)的用途已显著扩展,远远超出了传统的LLM后训练和语言领域。它现在被应用于包括视觉语言模型(Li等,2023)和视觉Transformer(Dong等,2023)在内的多个领域。LoRA也已被证明在图像生成建模中用于快速Stable Diffusion微调和个人化(Rombach等,2022;Gal等,2022;Ruiz等,2022;Roich等,2022),以及评分蒸馏(Wang等,2023),尽管最近出现了更原理性的无LoRA方法(Lukoianov等,2024)。它的应用甚至延伸到使用强化学习将基础模型微调为推理模型(Wang等,2025),以及为图神经网络和图Transformer开发新的适配器(Papageorgiou等,2025)。

随着这种适用范围的扩展,许多LoRA变体已经出现,通常旨在进一步减少计算开销。例如,量化提供了一种在训练期间(Gholami等,2021;Dettmers等,2023;Guo等,2024)和之后(Yadav等,2023)降低内存消耗的方法。可以通过自适应秩分配(Zhang等,2023)减少可训练参数的数量。进一步受重量或投影重用的想法启发(Frankle和Carbin,2018;Ramanujan等,2020),减少可训练LoRA参数的策略包括学习冻结随机矩阵 B B B A A A 的对角缩放(VeRA)(Kopiczko等,2024),从预训练的 W 0 W_{0} W0 中导出 B B B A A A 并在结果空间中优化较小的矩阵(SVDiff)(Han等,2023),学习固定随机矩阵的线性组合(NOLA)(Koohpayegani等,2023),以及使用正交矩阵进行微调(BOFT)(Liu等,2024)。LoRA也从更理论的角度进行了研究(Zeng和Lee,2024;Zhu等,2024;Kratsios等,2025)。

请注意,我们的重点是在CPU上生成LoRA,这是上述任何工作都没有探讨的内容。我们想重申的是,我们的所有流水线,包括使用人工神经网络的流水线,都可以仅使用CPU进行训练。

3. 预备知识

将数据集视为概率分布 为了描述我们的流水线,我们需要一个统一的框架来处理具有不同实例数目的数据集。因此,我们固定维度 d , D ∈ N + d, D \in \mathbb{N}_{+} d,DN+。考虑到我们的训练数据集 D 1 , … , D N ⊂ X D_{1}, \ldots, D_{N} \subset \mathcal{X} D1,,DNX 对应于 N N N 个可能的下游任务 T 1 , … , T N \mathcal{T}_{1}, \ldots, \mathcal{T}_{N} T1,,TN 其中之一,这些任务属于某个(非空)紧致输入域 X ⊆ R d + D \mathcal{X} \subseteq \mathbb{R}^{d+D} XRd+D,我们使用的Transformer模型(Mistral-7B-Instruct-v0.2) f θ : R d → R D f_{\theta}: \mathbb{R}^{d} \rightarrow \mathbb{R}^{D} fθ:RdRD,其参数 θ ∈ R p \theta \in \mathbb{R}^{p} θRp 属于一个 p ≫ 0 p \gg 0 p0 维欧几里得参数空间。由于每个数据集的条目是置换不变的,因此,按照合成数据生成文献(例如,Zamanlooy等,2024),自然地将每个数据集 D n D_{n} Dn 表示为经验分布(概率测度),即

P D n = 1 N m ∑ ( x , y ) ∈ D m δ ( x , y ) P_{D_{n}}=\frac{1}{N_{m}} \sum_{(x, y) \in D_{m}} \delta_{(x, y)} PDn=Nm1(x,y)Dmδ(x,y)

在域 X \mathcal{X} X 上,其中 N m ⊆ # D n N_{m} \subseteq \# D_{n} Nm#Dn;即 P D n = P_{D_{n}}= PDn= ∑ m = 1 N m w m δ ( x m , y m ) \sum_{m=1}^{N_{m}} w_{m} \delta_{\left(x_{m}, y_{m}\right)} m=1Nmwmδ(xm,ym) ,其中 w m = 1 / N m w_{m}=1 / N_{m} wm=1/Nm 对于每个 m = 1 , … , N m m=1, \ldots, N_{m} m=1,,Nm 。测度 P D n P_{D_{n}} PDn 的支撑,即 { ( x 1 , y 1 ) , … , ( x m , y m ) } \left\{\left(x_{1}, y_{1}\right), \ldots,\left(x_{m}, y_{m}\right)\right\} {(x1,y1),,(xm,ym)} 表示 D n D_{n} Dn 中的实例,权重 w m ∈ [ 0 , 1 ] w_{m} \in[0,1] wm[0,1] 总和为1,即 w w w 属于 N m N_{m} Nm 单纯形 Δ N m ⊆ { u ∈ [ 0 , 1 ] N m : ∑ i = 1 N m u i = 1 } \Delta_{N_{m}} \subseteq\left\{u \in[0,1]^{N_{m}}: \sum_{i=1}^{N_{m}} u_{i}=1\right\} ΔNm{u[0,1]Nm:i=1Nmui=1},并且表示 D m D_{m} Dm 中数据点的相对频率。我们将 X \mathcal{X} X 上的概率测度集合表示为 P ( X ) \mathcal{P}(\mathcal{X}) P(X)

管道输入和分布对齐分数 然后我们选择一个数据相似度得分 ρ : P ( X ) × \rho: \mathcal{P}(\mathcal{X}) \times ρ:P(X)× P ( X ) → [ 0 , ∞ ] \mathcal{P}(\mathcal{X}) \rightarrow[0, \infty] P(X)[0,]。为此,我们选择了一个(不)相似度度量,用于测量 X \mathcal{X} X 上的概率分布(测度)之间的距离,例如信息论发散如 Kullback Leibler (KL) 发散或像 1Wasserstein 距离 W 1 \mathcal{W}_{1} W1 这样的度量。这个不相似度得分允许我们提取任意新数据集 D D D (编码为数据域 X \mathcal{X} X 上的概率测度 P D P_{D} PD)与数据库中每个数据集 ( D n ) n = 1 N (D_{n})_{n=1}^{N} (Dn)n=1N 之间的对齐得分,通过 align : P ( X ) → Δ N \mathcal{P}(\mathcal{X}) \rightarrow \Delta_{N} P(X)ΔN

align ⁡ ( P D ) ≡ Softmax ⁡ ( ( ρ ( P D , P D n ) n = 1 N ) \operatorname{align}\left(P_{D}\right) \equiv \operatorname{Softmax}\left(\left(\rho\left(P_{D}, P_{D_{n}}\right)_{n=1}^{N}\right)\right. align(PD)Softmax((ρ(PD,PDn)n=1N)

一旦计算出(softmax归一化的)对齐得分,它们就会传递给一个网络,在我们的“概念验证”中,我们使用一个简单的MLP(在CPU上训练),这会产生一组混合权重 W D ∈ Δ N W_{D} \in \Delta_{N} WDΔN。然后这些混合权重用于组合我们数据库中的预训练LoRA权重 θ 1 , … , θ N \theta_{1}, \ldots, \theta_{N} θ1,,θN。注意,每个LoRA权重 θ n \theta_{n} θn 是专门针对任务 T n \mathcal{T}_{n} Tn 和数据集 D n D_{n} Dn 进行预训练的。因此,我们模型的输出就是LoRA的混合

D ↦ P D ↦ ∑ n = 1 N W D θ n D \mapsto P_{D} \mapsto \sum_{n=1}^{N} W_{D} \theta_{n} DPDn=1NWDθn

并且位于预训练LoRA权重 θ 1 , … , θ N \theta_{1}, \ldots, \theta_{N} θ1,,θN 在参数空间 R p \mathbb{R}^{p} Rp 的凸包中。因此,我们只需要学习(或计算,正如我们在第4节看到的那样)(3)中的映射。基于此,我们可以直接获得LoRA权重,无需进行微调。

4. 适用于CPU的LoRA生成流水线

我们现在数学上正式化我们的端到端低成本LoRA流水线。如何实际实施这些流水线的更多细节可以在附录C.1中找到。我们的主要理论保证(定理1)足够通用,不仅适用于馈入变压器的LoRA,也适用于几乎所有基于专家混合的参数预测流水线。

4.1 设置

d , D ∈ N + d, D \in \mathbb{N}_{+} d,DN+。令 ℓ : R D × R D → [ 0 , ∞ ) \ell: \mathbb{R}^{D} \times \mathbb{R}^{D} \rightarrow[0, \infty) :RD×RD[0,) 是Lipschitz函数。设 f : R p × R d → R D f: \mathbb{R}^{p} \times \mathbb{R}^{d} \rightarrow \mathbb{R}^{D} f:Rp×RdRD 是一个局部Lipschitz模型,将参数 θ ∈ R p \theta \in \mathbb{R}^{p} θRp 和输入 x ∈ R d x \in \mathbb{R}^{d} xRd 映射到输出 f θ ( x ) ∈ R D f_{\theta}(x) \in \mathbb{R}^{D} fθ(x)RD。另外,我们给出了一个预训练模型 θ 0 ∈ R p \theta_{0} \in \mathbb{R}^{p} θ0Rp。纯粹是为了简化,我们考虑标准化的数据域 X = [ 0 , 1 ] d + D \mathcal{X}=[0,1]^{d+D} X=[0,1]d+D。遵循 (Rothfuss et al., 2023)。我们随后固定一个任务分布 P ∈ P ( S ) \mathbb{P} \in \mathcal{P}(\mathcal{S}) PP(S),量化从 S \mathcal{S} S 中随机选择任何数据集的概率。我们考虑一个数据集的度量空间 D ⊆ P ( [ 0 , 1 ] d + D ) \mathcal{D} \subseteq \mathcal{P}\left([0,1]^{d+D}\right) DP([0,1]d+D),其度量由 ρ \rho ρ 定义,其中由 ρ \rho ρ 生成的拓扑不比收敛分布的拓扑粗。我们固定 K ∈ N + K \in \mathbb{N}_{+} KN+ 数据集及其对应的“微调”模型参数 ( D 1 , Δ θ 1 ) , … ( D K , Δ θ K ) \left(D_{1}, \Delta \theta_{1}\right), \ldots\left(D_{K}, \Delta \theta_{K}\right) (D1,Δθ1),(DK,ΔθK) D × R p \mathcal{D} \times \mathbb{R}^{p} D×Rp 中。让

co ⁡ ( Δ θ ) E { ϑ ∈ R p : ( ∃ w ∈ Δ K ) ϑ = ∑ k = 1 K w k Δ θ K } \operatorname{co}(\Delta \theta) \mathbb{E}\left\{\vartheta \in \mathbb{R}^{p}:\left(\exists w \in \Delta_{K}\right) \vartheta=\sum_{k=1}^{K} w_{k} \Delta \theta_{K}\right\} co(Δθ)E{ϑRp:(wΔK)ϑ=k=1KwkΔθK}

其中 Δ K E { w ∈ [ 0 , 1 ] K : ∑ k = 1 K w k = 1 } \Delta_{K} \mathbb{E}\left\{w \in[0,1]^{K}: \sum_{k=1}^{K} w_{k}=1\right\} ΔKE{w[0,1]K:k=1Kwk=1}.

4.2. 非常便宜的 LoRAs:注意力方法

考虑以下方法,将任何新到达的数据集 D D D 映射到以下 LoRA 混合

C Att  ( D ) ≦ [ softmin ⁡ ∘ align ⁡ ( D ) ] ⊤ ⏟ LoRA Alignment Scores  ( Δ θ 1 , … , Δ θ K ) ⏟ Pre-Trained LoRAs  \mathcal{C}_{\text {Att }}(D) \leqq \underbrace{[\operatorname{softmin} \circ \operatorname{align}(D)]^{\top}}_{\text {LoRA Alignment Scores }} \underbrace{\left(\Delta \theta_{1}, \ldots, \Delta \theta_{K}\right)}_{\text {Pre-Trained LoRAs }} CAtt (D)LoRA Alignment Scores  [softminalign(D)]Pre-Trained LoRAs  (Δθ1,,ΔθK)

我们将公式(4)中的流水线称为我们的注意力方法,因为数据集 D 1 , … , D K D_{1}, \ldots, D_{K} D1,,DK 在这里扮演的角色类似于注意力机制(Vaswani et al., 2017)中的键。公式(4)中的LoRA对齐分数类似于上下文对齐分数,预训练的LoRA参数则类似于(Vaswani et al., 2017)中的值矩阵。使用softmin而不是softmax是因为当两个数据集彼此距离为0时发生最大距离对齐,而不是某些任意大的数值。我们在实验中检查了距离向量(4)的一个归一化版本,请参见附录C.1.4以获取详细信息。

4.3. 廉价近似最优的LoRAs:神经方法

我们的神经方法通过使用深度学习模型 C : D → co ⁡ ( Δ θ ) \mathcal{C}: \mathcal{D} \rightarrow \operatorname{co}(\Delta \theta) C:Dco(Δθ) 将距离映射到公式(4)中的LoRA对齐分数中注入了非线性灵活性;在本文中,这将始终是一个MLP。这使我们的廉价LoRA方法能够学习如何检测和对齐新数据集与定义每个预训练任务的数据集之间复杂的非线性对齐关系。因此,这种神经方法将任何数据集 D D D 发送到以下LoRA的混合中

C ( D ) ≦ [ softmin ⁡ ∘ f ^ ∘ align ⁡ ( D ) ] ⊤ ⏟ Neural-LoRA Alignment Scores  ( Δ θ 1 , … , Δ θ K ) ⏟ Pre-Trained LoRAs  \mathcal{C}(D) \leqq \underbrace{[\operatorname{softmin} \circ \hat{f} \circ \operatorname{align}(D)]^{\top}}_{\text {Neural-LoRA Alignment Scores }} \underbrace{\left(\Delta \theta_{1}, \ldots, \Delta \theta_{K}\right)}_{\text {Pre-Trained LoRAs }} C(D)Neural-LoRA Alignment Scores  [softminf^align(D)]Pre-Trained LoRAs  (Δθ1,,ΔθK)

其中 f ^ : R K → R K \hat{f}: \mathbb{R}^{K} \rightarrow \mathbb{R}^{K} f^:RKRK 是一个带有激活函数 ς \varsigma ς 的MLP,我们将 align ⁡ ( D ) \operatorname{align}(D) align(D) 替换为 align ⁡ ( P D ) \operatorname{align}\left(P_{D}\right) align(PD) 来理解 D → P D D \rightarrow P_{D} DPD 的对应关系。

5. 理论保障

我们现在提供对我们主要方法的最优性的保障。我们还展示了存在一个最优解算子,如果用户能获得任务分布的完整信息,则能产生最佳的LoRA。

5.1. 注意力方法

我们最便宜的现成LoRA流水线(4)在Alquier等(2016)的PAC-Bayesian意义上是最优的。
命题1(存在性:微调的最优解算子)。对于每一个 K ∈ N + K \in \mathbb{N}_{+} KN+ { ( D k , Δ θ k ) } k = 1 K ⊂ D × R p \left\{\left(D_{k}, \Delta \theta_{k}\right)\right\}_{k=1}^{K} \subset \mathcal{D} \times \mathbb{R}^{p} {(Dk,Δθk)}k=1KD×Rp 其中每个 D k D_{k} Dk 是有限且非空的。对于每一个 α > 0 \alpha>0 α>0 和每个数据集 D ∈ D D \in \mathcal{D} DD,公式(4)中的LoRA对齐分数满足

softmin ⁡ ∘ align ⁡ ( D ) ⏟ LoRA Alignment Scores  ∈ argmin ⁡ n ∈ Δ k 1 K ∑ k = 1 K w k ρ ( D , D k ) ⏟ Dataset Alignment  + 1 α ∑ k = 1 K w k log ⁡ ( w k ) ⏟ Entropy Penalty  \underbrace{\operatorname{softmin} \circ \operatorname{align}(D)}_{\text {LoRA Alignment Scores }} \in \operatorname{argmin}_{n \in \Delta_{k}} \underbrace{\frac{1}{K} \sum_{k=1}^{K} w_{k} \rho\left(D, D_{k}\right)}_{\text {Dataset Alignment }}+\underbrace{\frac{1}{\alpha} \sum_{k=1}^{K} w_{k} \log \left(w_{k}\right)}_{\text {Entropy Penalty }} LoRA Alignment Scores  softminalign(D)argminnΔkDataset Alignment  K1k=1Kwkρ(D,Dk)+Entropy Penalty  α1k=1Kwklog(wk)

证明。见附录B.1。

5.2. 神经方法

公式(4)中的注意力流水线仅检查数据集与先前用于训练适配器库中的数据集的对齐情况。相比之下,公式(5)中的神经方法优化了预测的LoRA专家组合的下游性能。令人惊讶的是,至少在理论上,只需要在距离向量和softmin归一化层之间有一个小的MLP就能执行这种现成的下游(近似)最优LoRA生成。我们对神经方法的第一个保障展示了存在一个映射,即一个最优解算子,它可以返回最佳的下游优化。
命题2(存在性:微调的最优解算子)。对于每个数据集 D ∈ D D \in \mathcal{D} DD 存在一个oracle参数 ϑ ⋆ ∈ co ⁡ ( Δ θ ) \vartheta^{\star} \in \operatorname{co}(\Delta \theta) ϑco(Δθ) 满足
E ( X , Y ) ∼ D [ ℓ ( f θ + D ( X ) , Y ) ] ⏟ Oracle Error  = inf ⁡ Δ θ ∈ co ⁡ ( Δ θ ) E ( X , Y ) ∼ D [ ℓ ( f θ + Δ θ ( X ) , Y ) ] ⏟ Optimal Error  \underbrace{\mathbb{E}_{(X, Y) \sim \mathcal{D}}\left[\ell\left(f_{\theta+\mathcal{D}}(X), Y\right)\right]}_{\text {Oracle Error }}=\underbrace{\inf _{\Delta \theta \in \operatorname{co}(\Delta \theta)} \mathbb{E}_{(X, Y) \sim \mathcal{D}}\left[\ell\left(f_{\theta+\Delta \theta}(X), Y\right)\right]}_{\text {Optimal Error }} Oracle Error  E(X,Y)D[(fθ+D(X),Y)]=Optimal Error  Δθco(Δθ)infE(X,Y)D[(fθ+Δθ(X),Y)]

证明。见附录B.2。
我们的下一个也是主要结果表明,我们的流水线可以实现最佳的下游LoRA预测器组合以达到精度。我们的结果只依赖于我们数据的一个结构性规律条件,确保:从其到可用数据集/测度的距离测量中记录数据集/测度的逆问题是可能的。实际上,这意味着空间 D \mathcal{D} D 的度量维数(在图论意义上,详见(Tillquist et al., 2023))正好是 K K K
假设1(良好设定的逆问题)。设 ( D , ρ ) (\mathcal{D}, \rho) (D,ρ) 是紧致的,并假设 ρ \rho ρ 度量了 D \mathcal{D} D 上的弱拓扑(分布收敛)。我们要求:映射 align : D → [ 0 , ∞ ) K \mathcal{D} \rightarrow[0, \infty)^{K} D[0,)K 可以单射地将任何 D ∈ D D \in \mathcal{D} DD 映射到

align ⁡ ( D ) S ( ρ ( D , D k ) ) k = 1 K \operatorname{align}(D) \mathbb{S}\left(\rho\left(D, D_{k}\right)\right)_{k=1}^{K} align(D)S(ρ(D,Dk))k=1K

定理1 ( ε \varepsilon ε-最优廉价微调)。设 ς : R → R \varsigma: \mathbb{R} \rightarrow \mathbb{R} ς:RR 是一个Lipschitz激活函数,并且在至少一个点上是可微的且导数不为零。对于每个 0 < ε ≤ 1 0<\varepsilon \leq 1 0<ε1,存在一个MLP C : R K → R K \mathcal{C}: \mathbb{R}^{K} \rightarrow \mathbb{R}^{K} C:RKRK 使用激活函数 ς \varsigma ς 使得满足 ϵ \epsilon ϵ-最优选择性质:

E ( X , Y ) ∼ D [ ℓ ( f θ + E ( D ) ( X ) , Y ) ] ⏟ Cheap Fine-Tuning  ≤ inf ⁡ Δ θ ∈ co ⁡ ( Δ θ ) E ( X , Y ) ∼ D [ ℓ ( f θ + Δ θ ( X ) , Y ) ] ⏟ Fine-Tuning Oracle  + ε \underbrace{\mathbb{E}_{(X, Y) \sim \mathcal{D}}\left[\ell\left(f_{\theta+\mathcal{E}(D)}(X), Y\right)\right]}_{\text {Cheap Fine-Tuning }} \leq \underbrace{\inf _{\Delta \theta \in \operatorname{co}(\Delta \theta)} \mathbb{E}_{(X, Y) \sim \mathcal{D}}\left[\ell\left(f_{\theta+\Delta \theta}(X), Y\right)\right]}_{\text {Fine-Tuning Oracle }}+\varepsilon Cheap Fine-Tuning  E(X,Y)D[(fθ+E(D)(X),Y)]Fine-Tuning Oracle  Δθco(Δθ)infE(X,Y)D[(fθ+Δθ(X),Y)]+ε

成立,且 P \mathbb{P} P-概率至少为 1 − ε 1-\varepsilon 1ε
证明。见附录B.2。

6. 实验结果

进行了全面评估,以评估三种不同方法(注意力法、归一化法和神经法)结合四种已建立的距离度量(或分歧度):Wasserstein距离(WD)、Kullback-Leibler(KL)散度、Jensen-Shannon(JS)散度和最大均值差异(MMD)的表现。这次评估旨在系统比较每种方法和度量组合生成的输出。生成适配器质量的主要评估标准是Rouge-L,这是一个范围在0到1之间的度量,基于生成输出和参考输出之间最长公共子序列的重叠程度来量化相似性(Lin,2004)。我们还在附录D.1中包含了精确匹配(EM)结果。

我们的实验设置使用了Mistral-7B-Instruct-v0.2模型(Jiang等,2023)和一个包含502个英语数据集-适配器对的数据集,这些数据集来自Lots-of-LoRAs HuggingFace仓库(Gabrielsson等,2024)。有关实现的技术细节见附录C。

我们的实验设置突出了资源使用方面的一个关键区别:LoRA适配器的实际计算和调整仅在CPU上进行。然而,GPU仅在评估阶段是必需的。这是因为每个经过修改的LLM需要加载到GPU上才能为其各自的测试集生成输出。为了全面评估每种方法与距离(或分歧)度量配对的性能,我们为每个502个数据集执行了整个流水线十二次。这个详尽的过程涵盖了每种独特的方法和距离度量组合。在生成输出后,为每个数据集的测试集计算Rouge-L得分,报告的值反映了所有运行中的平均得分。

6.1. 性能比较与分析

我们的工作基准测试了两个关键性能指标。首先,未经任何微调的基础模型的性能,代表了一个计算资源受限的最终用户将基础模型应用于新数据集的情况:这产生了平均和标准差的Rouge-L得分为 0.192 ± 0.181 0.192 \pm 0.181 0.192±0.181。其次,我们与没有硬件限制情况下实现的GPU微调模型的性能进行比较,该模型获得了Rouge-L得分为 0.746 ± 0.265 0.746 \pm 0.265 0.746±0.265。表1展示了所有方法在四个距离(或分歧)度量上的下游任务的Rouge-L性能的平均值和标准差。

基于JS散度的归一化方法取得了最高分,平均Rouge-L得分为0.520。这比基础模型的得分0.192提高了0.328。值得一提的是,即使是我们简单的注意力方法,在所有距离度量下也明显优于基础模型。有趣的是,神经方法似乎并不能证明额外的计算成本是合理的,因为其相对于注意力方法和归一化方法的性能提升通常很小甚至更差。

表1. 我们廉价LoRA流水线的性能。

方法WDKLJSMMD
注意力法0.4260.5010.4860.486
(标准差) ( ± 0.290 ) ( \pm 0.290) (±0.290) ( ± 0.272 ) ( \pm 0.272) (±0.272) ( ± 0.270 ) ( \pm 0.270) (±0.270) ( ± 0.270 ) ( \pm 0.270) (±0.270)
归一化法0.4950.488 0.520 \mathbf{0 . 5 2 0} 0.5200.497
(标准差) ( ± 0.267 ) ( \pm 0.267) (±0.267) ( ± 0.269 ) ( \pm 0.269) (±0.269) ( ± 0.277 ) ( \pm 0.277) (±0.277) ( ± 0.269 ) ( \pm 0.269) (±0.269)
神经法0.4940.4820.4840.493
(标准差) ( ± 0.265 ) ( \pm 0.265) (±0.265) ( ± 0.268 ) ( \pm 0.268) (±0.268) ( ± 0.272 ) ( \pm 0.272) (±0.272) ( ± 0.270 ) ( \pm 0.270) (±0.270)

7. 结论

总之,我们的工作展示了一种实用、简单且有理论支持的管道,可用于仅使用CPU生成适合微调LLMs的LoRAs。该管道显著减少了通常所需的计算需求,使得即使是计算资源有限的用户或在隐私受限的边缘设备上也能进行微调。

我们证明了一个轻量级的ReLU MLP骨干的存在,该骨干可以在CPU上可靠地近似最优的LoRA适配器权重和偏差,从而在定理1中有效最小化下游任务的损失。令人惊讶的是,我们管道中最简单的版本(注意力法和归一化法)实现了与MLP骨干版本相当的性能,进一步证明了我们方法的效率和强大。

我们的实验使用Mistral-7B-Instruct-v0.2模型在502个不同的数据集上进行,结果显示相较于基线模型有了显著改进,最佳配置在基线模型的基础上性能提升了0.328(Rouge-L得分),填补了基线模型和GPU微调参考模型之间超过一半的性能差距。虽然我们的CPU生成的适配器尚未达到GPU训练的适配器的性能,但在资源受限的环境中,它们提供了一个引人注目的替代方案。

未来的工作可以探索这些方法在其他语言模型中的适用性,随着更多的LoRA适配器库开源,也可以探索超出NLP的任务。同样,了解需要多少LoRA适配器才能生成新的高质量适配器也将是有意义的——即所需库的大小是多少。我们预计这将取决于任务、数据模态,甚至可能取决于模型架构。最后,我们的方法也可能用于LoRA初始化(预热),然后再在GPU上进行微调。

参考文献

Hugo Touvron等人,《Llama:开放高效的基础设施语言模型》,arXiv预印本arXiv:2302.13971,2023年。

OpenAI,《Gpt-4技术报告》,2023年。可在https://openai.com/research/gpt-4上查看。

金泽白,白帅,褚云飞,崔哲宇,党凯,邓晓东,范雨,葛文斌,韩玉,黄飞,惠彬源,季磊,李梅,林俊阳,林润吉,刘代一,刘刚,卢成强,卢克明,马建欣,任星章,任宣丞,谭川奇,谭思然,屠建宏,王鹏,王世杰,王伟,吴胜光,徐本峰,许进,杨安,杨浩,杨健,杨舒生,

姚洋,余百森,袁宏伟,袁政,张建伟,张星章,张益昌,张振如,周长顺,朱天航,朱天润,朱志远,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志远,朱振华,朱志强,朱振华,朱志… 朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,… 朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,朱振华,朱志强,…

参考论文:https://arxiv.org/pdf/2507.01806

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值