不要将LoRA 适配器合并到 4 bit的LLM 中

 LoRA 是一种参数高效微调(PEFT)方法。它会在冻结的大型语言模型(LLM)基础上添加少量可训练参数。由于只需训练新增参数,LoRA 能大幅节省内存。

QLoRA 是更节省内存的方法,它在添加可训练参数前会对基础 LLM 进行量化处理。

通常在进行 QLoRA 训练时,仅保存适配器的参数。之后我们有两种不同的方法来使用适配器进行推理:

  1. 将其加载到基础 LLM 之上
  2. 将其合并到基础 LLM 中

在加载适配器的同时保留基础模型非常方便,因为我们可以轻松地几乎无缝地用另一个适配器替换当前适配器。此外,由于适配器体积小,它们易于存储和分发。

我们也可以将 LoRA 适配器合并到基础 LLMs 中,例如,为了使模型更易于使用、隐藏适配器,或者便于在合并后的模型上训练另一个适配器。LoRA 的作者们证明,将 LoRA 适配器合并到基础模型可以完美实现,即不会造成性能损失。

然而,对于 QLoRA 和量化 LLMs 的情况,这种方法效果不佳。

我们发现这些方法都存在缺陷。撰写本文时,若要将适配器直接合并到经 QLoRA 微调的 4 位量化 LLM 中尚不可行,必须对模型进行反量化处理才能实现合并操作。

如今随着 PEFT 库最新版本的发布,我们已经能够直接将 LoRA 适配器合并到 4 位 LLM 中。这看似非常便捷...

但这样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

runner000001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值