【微调】一文读懂选择Qwen做RAG应用的全过程（3）-CSDN博客

在 RAG 场景下，对嵌入模型进行调优可以带来巨大的收益。

开源的通用嵌入模型，比如 BGE-M3，虽然在各种任务上表现都不错，但它毕竟是“通用”的。你的特定领域知识、专业术语或独特的文本结构，通用模型可能无法完全理解。

例如，在医疗领域，“ECG” 和 “EKG” 都是心电图，但通用模型可能认为它们是两个不相关的词。通过调优，你可以教模型理解这类同义词和专业术语，从而在检索时能更精确地匹配用户的问题。

调优嵌入模型的过程，和我们前面讨论的大模型微调有些类似，但数据和目标不同。

这是最关键的一步。你需要准备一个包含正样本和负样本的数据集。

数据的质量直接决定了调优后的模型效果。你可以从你的知识库中手动或半自动地构建这些数据。

有监督微调：这是最常见的方法。你可以使用 Contrastive Learning（对比学习） 的思想，通过一个三元组（Anchor, Positive, Negative）来训练模型。目标是让 Anchor 和 Positive 之间的向量距离更近，同时让 Anchor 和 Negative 之间的距离更远。
无监督微调：如果你没有大量的标注数据，也可以尝试无监督方法。例如，使用数据增强技术来生成正样本，或者通过聚类等方式来构建负样本。
LoRA 微调：同样，你可以使用 LoRA 这种高效的微调技术来调优嵌入模型，这能大大降低硬件资源消耗。

社区提供了很多方便的工具来简化嵌入模型的调优。

Sentence-Transformers：这是一个非常流行的库，它提供了大量预训练的嵌入模型，并且内置了各种微调方法，让你可以轻松地用自己的数据进行训练。
Hugging Face Transformers：你也可以直接使用 Transformers 库，加载一个预训练模型，然后自己编写训练循环。