摘要
在本研究中,我们推出了Qwen3嵌入(Embedding)系列模型。该系列模型基于Qwen3基础模型构建,在文本嵌入和重排序能力方面相较于前代GTE-Qwen系列实现了显著提升。我们利用Qwen3大语言模型(LLMs)在多语言文本理解与生成方面的强大能力,设计了一种创新的多阶段训练流程,将大规模无监督预训练与高质量数据集上的监督微调相结合。此外,有效的模型融合策略进一步确保了Qwen3嵌入系列模型的鲁棒性和适应性。在训练过程中,Qwen3大语言模型不仅作为骨干模型,还在跨多个领域和语言合成高质量、丰富且多样化的训练数据方面发挥了关键作用,从而提升了整个训练流程的效果。Qwen3嵌入系列提供了多种模型规模(0.6B、4B、8B),适用于嵌入和重排序任务,可满足不同部署场景对效率与效果的多样化需求。实证评估表明,Qwen3嵌入系列在多个基准测试中取得了最优结果,尤其在多语言评估基准MTEB的文本嵌入任务以及代码检索、跨语言检索和多语言检索等多种检索任务中表现卓越。为促进研究的可重复性和社区驱动的研发,Qwen3嵌入模型已根据Apache 2.0许可证公开发布。
代码:
- https://huggingface.co/Qwen
- https://modelscope.cn/organization/qwen
- https://github.com/QwenLM/Qwen3-Embedding
1 引言
文本嵌入和重排序是众多自然语言处理和信息检索应用中的基础组件,包括网络搜索、问答系统、推荐系统等(Karpukhin等人,2020;Huang等人,2020;Zhao等人,2023;2024)。高质量的嵌入能使模型捕捉文本间的语义关系,而有效的重排序机制则能确保最相关的结果被优先展示。近期,随着大语言模型(如Qwen3(Yang等人,2025)、GPT-40(Hurst等人,2024))的发展,检索增强生成(RAG)和智能体系统等新兴应用范式对文本嵌入和重排序提出了新的要求和挑战,涉及模型训练范式和应用场景。尽管已取得显著进展,但训练出在可扩展性、上下文理解和特定下游任务对齐方面表现良好的嵌入和重排序模型仍颇具挑战。
大语言模型(LLMs)的出现显著推动了文本嵌入和重排序模型的发展。在大语言模型引入之前,主流方法主要采用仅编码器的预训练语言模型(如BERT)作为训练基础模型(Reimers & Gurevych,2019)。大语言模型所蕴含的更丰富的世界知识、文本理解和推理能力,进一步提升了基于这些模型训练的流程,如训练数据合成和质量数据过滤(Wang等人,2024;Lee等人,2024;2025b)。大语言模型的基本特性也启发了新的训练范式的引入。例如,在嵌入模型训练过程中,融入指令类型、领域和语言等方面的差异化任务,可提升下游任务的性能(Su等人,2023)。同样,对于重排序模型训练,基于用户提示的零样本方法和结合监督微调的方法均取得了进展(Ma等人,2023;Pradeep等人,2023;Zhang等人,2024a;Zhuang等人,2024)。
在本研究中,我们推出了基于Qwen3基础模型构建的Qwen3嵌入系列模型。Qwen3基础模型同时发布了基础版和指令版,我们充分利用这些模型强大的多语言文本理解和生成能力,充分挖掘其在训练嵌入和重排序模型方面的潜力。为训练嵌入模型,我们实施了一个多阶段训练流程,包括大规模无监督预训练,随后在高质量数据集上进行监督微调。我们还采用不同模型检查点的模型融合策略,以增强模型的鲁棒性和泛化能力。Qwen3指令模型能够高效合成一个庞大、高质量、多语言和多任务的文本相关性数据集。该合成数据用于初始无监督训练阶段,而一小部分高质量、小规模数据则被选用于第二阶段监督训练。对于重排序模型,我们采用类似的双阶段训练方案,包括高质量监督微调和模型融合阶段。基于不同规模的Qwen3骨干模型(包括0.6B、4B和8B),我们最终训练了三个文本嵌入模型和三个文本重排序模型。为促进这些模型在下游任务中的应用,Qwen3嵌入系列支持多种实用功能,如嵌入模型的灵活维度表示以及嵌入和重排序模型的可定制指令。
我们在涵盖多个任务和领域的全面基准测试集中对Qwen3嵌入系列进行了评估。实验结果表明,我们的嵌入和重排序模型取得了最优性能,在多个检索任务中与领先的专有模型相比具有竞争力。例如,旗舰模型Qwen3-8B-Embedding在MTEB多语言基准测试(Enevoldsen等人,2025)中取得了70.58分的成绩,在MTEB代码基准测试(Enevoldsen等人,2025)中取得了80.68分的成绩,超越了先前的最优专有嵌入模型Gemini-Embedding(Lee等人,2025b)。此外,我们的重排序模型在多个检索任务中取得了有竞争力的结果。Qwen3-Reranker-0.6B模型在多个检索任务中超越了先前表现最优的模型,而更大的Qwen3-Reranker-8B模型则展现了更卓越的性能,在多个任务中相比0.6B模型提升了3.0个百分点的排序结果。此外,我们还进行了一项建设性的消融研究,以阐明Qwen3嵌入系列取得卓越性能的关键因素,为其有效性提供了深入见解。
在接下来的章节中,我们将介绍模型架构的设计,详细阐述训练流程,展示Qwen3嵌入系列嵌入和重排序模型的实验结果,并在总结关键发现和概述未来研究方向的同时,结束本技术报告。
2 模型架构
嵌入模型和重排序模型的核心思想是以任务感知的方式评估相关性。给定查询qqq和文档ddd,嵌入模型和重排序模型会根据指令III定义的相似性准则来评估它们之间的相关性。为了使模型能够进行任务感知的相关性估计,训练数据通常被组织为{Ii,qi,di+,di,1−,⋯ ,di,n−}\left\{I_{i},q_{i},d_{i}^{+},d_{i,1}^{-},\cdots,d_{i,n}^{-}\right\}{Ii,qi,di+,di,1−,⋯,di,n−},其中di+d_{i}^{+}di+表示查询qiq_{i}qi的正(相关)文档,di,j−d_{i,j}^{-}di,j−表示负(不相关)文档。在多样化的文本对上训练模型,可扩大其在检索、语义文本相似性、分类和聚类等下游任务中的适用性。
架构
Qwen3嵌入模型和重排序模型基于Qwen3基础模型的密集版本构建,有三种参数规模:0.6B、4B和8B。我们使用Qwen3基础模型初始化这些模型,以利用其在文本建模和指令遵循方面的能力。每种模型配置的模型层数、隐藏层大小和上下文长度详见表1。
嵌入模型
对于文本嵌入,我们使用带有因果注意力的LLMs,在输入序列末尾添加[EOS]标记。最终嵌入取自最后一层对应于该[EOS]标记的隐藏状态。
为了确保嵌入在下游任务中遵循指令,我们将指令和查询拼接成一个输入上下文,而文档在LLMs处理前保持不变。查询的输入格式如下:
{指令} {查询}<文本结束符|>
重排序模型
为了更准确地评估文本相似性,我们在单个上下文中使用LLMs进行逐点重排序。与嵌入模型类似,为了实现指令遵循能力,我们在输入上下文中包含指令。我们使用LLM聊天模板,并将相似性评估任务构建为一个二分类问题。输入LLMs的模板如下所示:
<对话开始|>系统 根据提供的查询和指令判断文档是否符合要求。注意,答案只能是“是”或“否”。<对话结束|>
<对话开始|>用户
<指令>:{指令}
<查询>:{查询}
<文档>:{文档}<对话结束|>
<对话开始|>助手 <思考>\n\n</思考>\n\n
为了根据给定输入计算相关性得分,我们评估下一个标记为“是”或“否”的可能性。这可以用以下数学公式表示:
score(q,d)=eP(yes∣I,q,d)eP(yes∣I,q,d)+eP(no∣I,q,d)\mathrm{score}\big(q,d\big)=\frac{e^{P\left(\mathrm{yes}\mid I,q,d\right)}}{e^{P\left(\mathrm{yes}\mid I,q,d\right)}+e^{P\left(\mathrm{no}\mid I,q,d\right)}}score(q,d)=eP(yes∣I,q,d)+eP(no∣I,q,d)eP(yes∣I,q,d)
3 模型训练
本节介绍所采用的多阶段训练流程,并阐述该训练方案的关键要素,包括训练目标、训练数据合成以及高质量训练数据的筛选。
3.1 训练目标
在介绍训练流程之前,我们先概述训练过程中嵌入模型和重排序模型所使用的优化损失函数。对于嵌入模型,我们采用了一种基于InfoNCE框架(Oord等人,2018)改进的对比损失。给定一个包含NNN个训练样本的批次,损失函数定义为:
Lembedding=−1N∑iNloge(s(qi,di+)/τ)Zi,L_{\mathrm{embedding}}=-\frac{1}{N}\sum_{i}^{N}\log\frac{e^{\left(s\left(q_{i},d_{i}^{+}\right)/\tau\right)}}{Z_{i}},Lembedding=−N1i∑NlogZie(s(qi,di+)/τ),
其中,s(⋅,⋅)s(\cdot,\cdot)s(⋅,⋅)为相似度函数(我们使用余弦相似度),τ\tauτ为温度参数,ZiZ_{i}Zi为归一化因子,用于聚合正样本对与各类负样本对的相似度得分:
Zi=e(s(qi,di+)/τ)+∑kKmike(s(qi,di,k−)/τ)+∑i≠imije(s(qi,qj)/τ)+∑j≠imije(s(di+,dj)/τ)+∑i≠imije(s(qi,dj)/τ)Z_{i}=e^{(s(q_{i},d_{i}^{+})/\tau)}+\sum_{k}^{K}m_{i k}e^{(s(q_{i},d_{i,k}^{-})/\tau)}+\sum_{i\neq i}m_{i j}e^{(s(q_{i},q_{j})/\tau)}+\sum_{j\neq i}m_{i j}e^{(s(d_{i}^{+},d_{j})/\tau)}+\sum_{i\neq i}m_{i j}e^{(s(q_{i},d_{j})/\tau)}Zi=e(s(qi,di+)/τ)+k∑Kmike(s(qi,di,k−)/τ)+i=i∑mije(s(qi,qj)/τ)+j=i∑mije(s(di+,dj)/τ)+i=i∑mije(s(qi,dj)/τ)
其中,各项分别表示与以下内容的相似度:(1)正样本文档di+d_{i}^{+}di+;(2)KKK个难负样本di,k−d_{i,k}^{-}di,k−;(3)批次内其他查询qjq_{j}qj;(4)与正样本文档di+d_{i}^{+}di+对比的批次内其他文档djd_{j}dj;(5)与查询qiq_{i}qi对比的批次内其他文档did_{i}di。掩码因子mijm_{i j}mij旨在减轻假负样本的影响,其定义为:
mij={0if sij>s(qi,di+)+0.1 or dj==di+,1otherwise,m_{i j}=\begin{cases}{0}&{\mathrm{if}\:s_{i j}>s\big(q_{i},d_{i}^{+}\big)+0.1\:\mathrm{or}\:d_{j}==d_{i}^{+},}\\ {1}&{\mathrm{otherwise},}\end{cases}mij={01ifsij>s(qi,di+)+0.1ordj==di+,otherwise,
其中,sijs_{i j}sij为qi,djq_{i},d_{j}qi,dj或qi,qjq_{i},q_{j}qi,qj的对应得分。
对于重排序模型,我们优化有监督微调(Supervised Fine-Tuning,SFT)损失,其定义为:
Lreranking=−logp(l∣P(q,d)),L_{\mathrm{reranking}}=-\log p\big(l\big|\mathcal{P}\big(q,d\big)\big),Lreranking=−logp(lP(q,d)),
其中,p(⋅∣∗)p(\cdot|\ast)p(⋅∣∗)表示大语言模型(LLM)分配的概率。标签lll对于正样本文档为“是”,对于负样本文档为“否”。该损失函数鼓励模型为正确标签分配更高概率,从而提升排序性能。
3.2 多阶段训练
多阶段训练方法是训练文本嵌入模型的常用策略(Li等人,2023;Wang等人,2022;Chen等人,2024)。该策略通常先在大规模、包含噪声的半监督数据上进行初始训练,随后使用较小规模的高质量有监督数据集进行微调。这种两步流程可提升嵌入模型的性能和泛化能力。大规模弱监督训练数据对模型的泛化能力贡献显著,而后续阶段使用高质量数据进行微调可进一步提升模型性能。嵌入模型训练的两个阶段均采用公式1定义的优化目标,而重排序模型训练则采用公式2定义的损失函数作为优化目标。
在现有多阶段训练框架的基础上,Qwen3嵌入系列引入了以下关键创新:
大规模合成数据驱动的弱监督训练:与以往研究(如GTE、E5、BGE模型)主要从问答论坛或学术论文等开源社区收集弱监督训练数据不同,我们提出利用基础模型的文本理解和生成能力直接合成数据对。这种方法允许在合成提示中任意定义所需数据对的各种维度,如任务、语言、长度和难度。与从开放领域来源收集数据相比,基础模型驱动的数据合成具有更强的可控性,能够精确管理生成数据的质量和多样性,特别是在低资源场景和语言中。
有监督微调中的高质量合成数据利用:由于Qwen3基础模型表现卓越,合成数据质量显著较高。因此,在有监督训练的第二阶段,选择性引入这些高质量合成数据可进一步提升模型的整体性能和泛化能力。
模型融合:受先前研究(Li等人,2024)启发,在完成有监督微调后,我们采用基于球面线性插值(spherical linear interpolation,slerp)的模型融合技术。该技术融合了微调过程中保存的多个模型检查点,旨在提升模型在各种数据分布上的鲁棒性和泛化性能。
值得注意的是,重排序模型的训练过程不包括第一阶段的弱监督训练。
3.3 合成数据集
为创建用于训练模型处理各类相似性任务的稳健合成数据集,我们生成了涵盖检索、双语文本挖掘、分类和语义文本相似性(Semantic Textual Similarity,STS)等多个类别的多样化文本对。通过利用Qwen3-32B模型作为数据合成的基础模型,确保了这些合成数据对的质量。我们设计了一种多样化的提示策略,以提高生成数据的多样性和真实性。例如,在文本数据合成过程中,为每个文档分配特定角色,以模拟潜在用户查询该文档的情景。这种用户视角的引入增强了合成查询的多样性和真实性。具体而言,我们利用检索模型从角色库中为每个文档识别出五个最佳角色候选,并将这些文档及其角色候选一同呈现给提示,指导模型输出最适合查询生成的角色配置。此外,提示还融入了查询类型(如关键词、事实性、总结性、判断性)、查询长度、难度和语言等多个维度。这种多维方法确保了合成数据的质量和多样性。
最终,我们创建了约1.5亿对多任务弱监督训练数据。实验表明,使用这些合成数据训练的嵌入模型在MTEB多语言基准测试中的表现优于许多现有模型。这促使我们对合成数据进行筛选,以识别高质量数据对,用于第二阶段的有监督训练。我们采用简单的余弦相似度计算来选择数据对,从随机采样的数据中保留余弦相似度大于0.7的数据对。最终,选择了约1200万对高质量有监督训练数据进行进一步训练。
4、评估
我们在多个基准测试中进行了全面且公平的评估,以评估Qwen3嵌入模型的能力。
4.1 评估设置
对于文本嵌入模型,我们采用大规模多语言文本嵌入基准测试(Massive Multilingual Text Embedding Benchmark,MMTEB)(Enevoldsen等人,2025)进行评估。MMTEB是对MTEB(Muennighoff等人,2023)的大规模、社区驱动的扩展,涵盖了500多项质量控制评估任务。
除了经典的文本任务(如各种检索、分类和语义文本相似度任务)外,MMTEB还包括一系列具有挑战性和新颖性的任务,如指令跟随、长文档检索和代码检索,代表了迄今为止最大的多语言嵌入模型评估任务集合。我们的MMTEB评估涵盖了216项独立评估任务,其中包括131项MTEB(多语言)任务(Enevoldsen等人,2025)、41项MTEB(英文,v2版)任务(Muennighoff等人,2023)、32项CMTEB任务(Xiao等人,2024)和12项MTEB(代码)代码检索任务(Enevoldsen等人,2025)。
此外,我们选择了一系列文本检索任务来评估模型的文本重排序能力。我们探索了三种类型的检索任务:(1)基本相关性检索,分为英文、中文和多语言三类,分别在MTEB(Muennighoff等人,2023)、CMTEB(Xiao等人,2024)、MMTEB(Enevoldsen等人,2025)和MLDR(Chen等人,2024)上进行评估;(2)代码检索,在MTEB-Code(Enevoldsen等人,2025)上进行评估,该基准仅包含与代码相关的检索数据;(3)复杂指令检索,在FollowIR(Weller等人,2024)上进行评估。
对比方法 我们将我们的模型与最优秀的开源文本嵌入模型和商业API服务进行了对比。开源模型包括GTE(Li等人,2023;Zhang等人,2024b)、E5(Wang等人,2022)和BGE(Xiao等人,2024)系列,以及NV-Embed-v2(Lee等人,2025a)、GritLM-7B(Muennighoff等人,2025)。评估的商业API包括OpenAI的text-embedding-3-large、Google的Gemini-embedding和Cohere-embed-multilingual-v3.0。在重排序方面,我们与jina1、mGTE(Zhang等人,2024b)和BGE-m3(Chen等人,2024)的重排序器进行了对比。
4.2 主要结果
嵌入模型 表2展示了在MMTEB(Enevoldsen等人,2025)上的评估结果,该基准全面涵盖了多种语言的大量嵌入任务。我们的Qwen3-Embedding-4B/8B模型表现最佳,而我们的最小模型Qwen3-Embedding-0.6B尽管只有6亿参数,但仅落后于表现最好的基线方法(Gemini-Embedding)。表3展示了在MTEB(英文,v2版)(Muennighoff等人,2023)、CMTEB(Xiao等人,2024)和MTEB(代码)(Enevoldsen等人,2025)上的评估结果。得分趋势与MMTEB相似,我们的Qwen3-Embedding-4B/8B模型表现始终优于其他模型。值得注意的是,Qwen3-Embedding-0.6B模型仅次于Gemini-Embedding,同时与gte-Qwen2-7B-instruct具有竞争力。
重排序 在表4中,我们展示了在各种重排序任务上的评估结果(4.1节)。我们使用Qwen3-Embedding-0.6B模型检索前100名候选,然后应用不同的重排序模型进行进一步优化。这种方法确保了对重排序模型的公平评估。我们的结果表明,与嵌入模型相比,所有三个Qwen3重排序模型均提升了性能,并且在大多数任务中,Qwen3-Reranker-8B表现最佳。
4.3 分析
为了进一步分析和探索Qwen3嵌入模型训练框架的关键要素,我们从以下几个维度进行了分析:
大规模弱监督预训练的有效性 我们首先分析了大规模弱监督训练阶段对嵌入模型的有效性。如表5所示,仅在合成数据上训练的Qwen3-Embedding-0.6B模型(如第一行所示,未进行后续训练阶段)与最终的Qwen3-Embedding-0.6B模型(如最后一行所示)相比,表现合理且强劲。如果我们进一步移除弱监督训练阶段(即不进行合成数据训练,如第二行所示),最终性能明显下降。这表明大规模弱监督训练阶段对于实现卓越性能至关重要。
模型合并的有效性 接下来,我们比较了模型合并阶段带来的性能差异。如表5所示,未使用模型合并技术训练的模型(第三行,使用数据采样来平衡各种任务)比最终的Qwen3-Embedding-0.6B模型(使用模型合并,如最后一行所示)表现差很多。这表明模型合并阶段对于开发强大的模型也至关重要。
5 结论
在本技术报告中,我们介绍了Qwen3-Embedding系列,这是一套基于Qwen3基础模型的全面文本嵌入和重排序模型。这些模型旨在在各种文本嵌入和重排序任务中表现出色,包括多语言检索、代码检索和复杂指令跟随。Qwen3嵌入模型基于强大的多阶段训练流程构建,该流程将大规模弱监督预训练(在合成数据上)与在高质量数据集上的监督微调和模型合并相结合。Qwen3大语言模型在合成跨多种语言和任务的多样化训练数据方面发挥了关键作用,从而增强了模型的能力。我们的全面评估表明,Qwen3嵌入模型在各种基准测试(包括MTEB、CMTEB、MMTEB和多个检索基准测试)上均达到了最先进的性能。我们很高兴开源Qwen3-Embedding和Qwen3-Reranker模型(6亿、40亿和80亿参数),供社区使用和进一步开发。
附录A
A.1 合成数据
我们构建了四种类型的合成数据——信息检索、双语语料挖掘、语义文本相似度和分类任务,以使模型在预训练期间能够适应各种相似性任务。为确保数据具有多语言和跨语言多样性,我们使用Qwen3 32B生成数据。以下是一个合成检索文本对的示例。检索数据是使用文档到查询的方法合成的。我们从Qwen3基础模型的预训练语料库中收集多语言语料库作为文档来源。然后应用一个两阶段生成流程,包括:(1)配置和(2)查询生成。在配置阶段,我们使用大语言模型(LLMs)为合成查询确定“问题类型”、“难度”和“角色”。候选角色从Persona Hub(Ge等人,2024)中检索,选择与给定文档最相关的前五个。这一步旨在提高生成查询的多样性。使用的模板如下:
在查询生成阶段,我们使用第一阶段选择的配置来指导查询的生成。此外,我们明确指定生成查询的期望长度和语言。使用的模板如下: