Structure-aware Domain Knowledge Injection for Large Language Models——面向大型语言模型的结构化领域知识注入

Together_CZ

于 2025-08-19 01:00:00 发布

阅读量1.4k

点赞数 42

CC 4.0 BY-SA版权

文章标签：语言模型面向大型语言模型的结构化领域知识注入 Structure-aware Domain Knowledge Injection

本文链接：https://blog.csdn.net/Together_CZ/article/details/148692216

研究背景

大型语言模型（LLMs）的应用挑战：LLMs在多领域有广泛应用，但将其适应于特定领域时，面临知识注入效率和数据利用的挑战。传统方法如持续预训练（CPT）和监督微调（SFT）需要大量数据，且对结构化知识利用不足。
人类学习的启发：人类通过学习教科书、复习知识点和结构，并通过练习应用知识来成为领域专家。然而，传统LLMs适应方法忽略了知识结构，导致效率低下。

研究方法

StructTuning方法：提出了一种新的方法，通过结构化领域知识注入，将LLMs转化为领域专家。该方法包括两个阶段：
1. 结构感知持续预训练（SCPT）：自动提取领域知识分类体系，重组训练语料库，使模型能够将文本片段与知识点联系起来。
2. 结构感知监督微调（SSFT）：通过生成结构化的问答对，引导模型在输出中明确表达知识结构，提升其解决实际问题的能力。
知识结构提取：使用先进的语言模型（如LLaMA3）从文本中提取知识结构，无需人工标注，降低了成本并提高了可扩展性。
数据构造框架：开发了一个可扩展的数据构造框架，从原始语料库中生成结构化训练样本，支持SCPT和SSFT阶段。

实验与结果

数据集与任务：在LongBench和MMedBench数据集上进行实验，分别评估模型对注入知识的记忆和理解能力，以及在医学领域应用知识进行诊断的能力。
性能提升：
- 在LongBench数据集上，StructTuning方法将知识召回率从传统方法的24.2%提升到31.5%。
- 在MMedBench数据集上，仅使用0.3%的训练数据，StructTuning方法就比现有最先进的方法（需要25.5B标记）提升了50%以上的性能。
- 当训练数据增加到5%时，平均准确率几乎翻倍，显著降低了训练成本。
可扩展性与泛化能力：StructTuning方法在不同模型架构（如Llama2、InternLM2）和规模上均表现出良好的泛化能力，且随着训练数据的增加，性能持续提升。

研究贡献

提出了一种新颖的两阶段训练策略（SCPT和SSFT），通过保留和利用训练语料库的固有结构，高效注入领域知识。
开发了一个可扩展的数据构造框架，支持结构化训练样本的生成。
在多个数据集和模型上验证了StructTuning方法的优越性，证明了其在知识注入方面的高效性和可扩展性。

限制与未来工作

两阶段策略引入了额外的计算复杂性，包括分类体系提取和数据重组。
尽管计算开销增加，但整体效益显著，且可以减少对大规模LLMs的依赖。
未来工作将深入研究如何进一步优化计算效率，并探索在更多领域和任务中的应用。

这篇文章的核心贡献在于提出了一种结构化的方法来注入领域知识，显著提高了LLMs在特定领域的适应性和数据利用效率，为未来的研究和应用提供了新的方向。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目地址在这里，如下所示：

本文介绍了一种开创性的方法，称为 StructTuning，能够高效地将基础大型语言模型（LLMs）转化为领域专家。该方法显著减少了训练语料的需求，仅需传统知识注入性能的 5% 的数据，即可实现 100% 的知识注入效果。受结构化人类教育的启发，我们提出了一个新颖的两阶段知识注入与对齐策略：结构感知持续预训练（SCPT） 和 结构感知监督微调（SSFT）。在 SCPT 阶段，我们自动提取领域知识分类体系，并重组训练语料，使 LLMs 能够有效地将文本片段与分类体系中的目标知识点联系起来。在 SSFT 阶段，我们明确提示模型在其输出中阐明潜在的知识结构，利用结构化的领域洞察来解决实际问题。我们的最终方法在 LongBench 和 MMedBench 数据集上对不同模型架构和规模进行了广泛评估，表现优于其他知识注入方法。我们还探索了该方法在不同训练语料规模下的可扩展性，为提升领域特定 LLMs 的数据利用效率奠定了基础。

1 引言

大型语言模型（LLMs）近年来已在各种应用中得到广泛部署（Vaswani et al., 2017; Achiam et al., 2023; Jiang et al., 2023; Bi et al., 2024）。当将基础模型（例如 Llama 系列（Touvron et al., 2023a,b; Dubey et al., 2024））适应于不同领域的专业 AI 助手时，开发人员通常采用两种技术来增强 LLMs 的能力：检索增强生成（RAG）（Lewis et al., 2020）和领域知识注入（Gururangan et al., 2020）。尽管 RAG 通过利用外部知识库有效增强了信息，但检索过程固有的噪声对生成可靠响应提出了挑战，尤其是在需要逻辑推理的场景中，用户查询与知识库之间存在语义差距（Zhang et al., 2023; Chen et al., 2023）。因此，另一种途径是通过训练技术向 LLMs 注入新知识（Gu et al., 2021; Hu et al., 2021; Mecklenburg et al., 2024）。持续预训练（Sun et al., 2020; Ibrahim et al., 2024）被广泛用于注入领域特定知识（Cui et al., 2023; Wang et al., 2023b; Qiu et al., 2024）。然而，它通常需要在数十亿互联网标记上进行训练，以捕捉碎片化的知识，而不是利用少量结构化的教科书（Jin et al., 2020）。例如，MMedLM（Qiu et al., 2024）使用 255 亿标记进行医学建模，而 DeepSeekCoder（Guo et al., 2024）处理 2 万亿标记以适应编程。学习有效利用教科书的能力有限，这归因于数据多样性的不足（Zhu and Li, 2023a），然而这与人类教育过程中的观察结果相悖（见图 1）：学生通过按章节学习教科书、复习知识点和结构，并通过适当的练习应用这些知识来成为领域专家（Krathwohl, 2002; Yu et al., 2023）。在这里，所有新学习的数据都是教科书（结构化内容）和练习示例（问答对），学生只需利用他们的世界知识来记忆、理解和应用知识以成为领域专家。正如教育人类学生一样，我们提出通过两个步骤将结构化领域知识注入 LLMs：结构感知持续预训练（SCPT） 和 结构感知监督微调（SSFT）。

在 SCPT 阶段，我们认为高质量的教科书数据（以及来自互联网的常规语料库）足以注入领域知识（Gunasekar et al., 2023），其中训练语料库的组织至关重要。在传统范式中（见图 1），文本语料库被简单地拼接并划分为 2048（Qiu et al., 2024）或 4096（Guo et al., 2024）标记的文本块，而丢弃了固有的语义结构（例如，教科书的目录）。相反，我们将每个块视为一个知识点，并从整个语料库中自动提取领域知识分类体系。随后，LLMs 被训练以在给定领域结构中的知识路径的条件下预测文本内容（对应于知识点），将各个训练块与整个知识架构联系起来。最后，模型必须记忆整个结构以复习整个领域知识体系。

在 SSFT 阶段，目标从知识注入转变为使 LLMs 能够回忆并利用其获得的知识来解决现实世界中的挑战。我们明确地在 LLMs 的响应中引出知识路径，作为模型针对信息检索或逻辑推理以提供可靠响应的指引。为此，我们设计了一种可扩展的策略，通过开源 LLM 或 API（例如 LLaMA3（Dubey et al., 2024）和 GPT4（Achiam et al., 2023））生成问答对作为练习练习。在存在问答对的场景中（例如 MMedBench（Qiu et al., 2024）），我们检索相关的知识结构和内容，指导 LLaMA3 根据知识路径从问题到答案提供解释。对于缺乏特定问答样本的数据集（例如 LongBench（Bai et al., 2023b）），我们从领域分类体系中随机选择知识路径，并提示 LLaMA3 为训练练习创建问答解释三元组。我们的最终方法 StructTuning 已在不同模型架构和规模上进行了广泛评估。特别是，我们首先在 LongBench（Bai et al., 2023b）数据集上检查它们通过开放式问答回忆注入知识的能力，然后通过 MMedBench（Qiu et al., 2024）上的多项选择问答评估注入知识在解决现实世界问题中的应用。两项评估都强调了 StructTuning 的优越性，超过了其他最先进的领域知识注入方法（Cheng et al., 2023; Zhang et al., 2024）。值得注意的是，我们在医学领域仅使用 0.3% 的训练数据需求，就比最先进的 MMedLM2 方法在知识注入方面提高了 50%。此外，StructTuning 展现出良好的可扩展性，仅使用 5% 的训练数据即可实现相当的性能。这些发现揭示了我们在以更高效的数据利用提升领域特定 AI 助手方面的优势。我们的贡献总结如下：

我们提出了一个新颖的两阶段训练策略，SCPT 和 SSFT，通过保留和利用训练语料库的固有结构来注入领域知识到 LLMs 中。
我们开发了一个可扩展的数据构建框架，从原始语料库中生成结构感知训练样本，以促进 SCPT 和 SSFT 阶段。
我们在各种数据和模型设置上对 StructTuning 策略进行了广泛的研究，并全面展示了我们在知识注入方面的优越性。

2 相关工作

在这里，我们简要讨论与本文密切相关的研究工作。详细讨论可在附录 C 中找到。

2.1 领域适应性研究

为了应对大型语言模型（LLMs）的领域适应性问题，预训练模型通常会通过持续预训练（CPT）来适应特定领域的内容（Sun et al., 2020; Xu et al., 2023b），并使用监督指令-响应对进行微调（SFT），以不断提升交互能力（Mecklenburg et al., 2024; Qiu et al., 2024）。这种范式已在动态领域（如医学（Wang et al., 2023b; Qiu et al., 2024）和编程（Roziere et al., 2023; Guo et al., 2024））中得到了验证。我们的研究基于 CPT-SFT 框架，创新性地提出了 SCPT-SSFT 策略，以高效且有效地将领域知识注入到语言模型中。

2.2 结构化知识聚合

在传统范式中，研究人员从文本中提取实体-关系-实体三元组来构建知识图谱（Pan et al., 2024），以增强 LLMs 的事实知识和逻辑推理能力（Zhang et al., 2022; Wen et al., 2023）。然而，这些方法中的每个节点仅对应于一个特定实体或抽象概念，无法呈现一个完整且自包含的知识点。相比之下，本文将结构化知识聚合扩展到现有训练语料库中，通过将训练样本与对应的知识点和推理路径联系起来，将整个领域知识结构注入到 LLMs 中。

2.3 数据增强与合成

传统方法旨在人为地扩大训练数据集的规模（Xu et al., 2023a; Mukherjee et al., 2023），或生成全新的样本以适应特定任务（Tang et al., 2024）。然而，这些方法常常忽略了领域知识的结构化特性，而随机生成的样本可能缺乏多样性（Ovadia et al., 2023; Mecklenburg et al., 2024），无法覆盖领域知识要点（Mecklenburg et al., 2024; Tang et al., 2024）。相比之下，我们的 SSFT 设计是一种创新的解决方案，旨在解决保留和利用领域特定内容中固有结构化知识的挑战。

3 方法论

图 2 展示了我们的 StructTuning 方法，用于将领域知识注入预训练的大型语言模型（LLMs）中。我们从精心策划的领域语料库（通常是几本教科书）开始，首先提取知识结构，并将文本块与相应的知识点和知识路径关联起来（第 3.1 节）。然后，我们设计了一个两阶段的训练策略，通过模仿人类教育过程，将高度结构化的领域知识注入语言模型中，包括结构感知持续预训练（SCPT）和结构感知监督微调（SSFT）技术。

3.1 知识结构提取

对于网络爬取的语料库，以往的数据预处理主要关注单个文档的质量评估（Bi et al., 2024），而通常会忽略或过滤掉知识结构的元信息（例如，教科书的目录），最终只剩下按顺序排列的文本段（例如，按页分块的内容）。如图 2（a）所示，我们的目标是从原始语料库中提取（或恢复）知识结构，以便后续进行领域知识注入。首先，我们使用 spaCy 按段落级别分割教科书的内容，并将句子合并成最大长度（例如，2048 个标记）的训练块。之后，我们提示先进的 Llama3-70B 模型为每个块总结标题，其中文本内容与抽象标题共同构成一个“知识点”。然后，我们通过利用先进的语言模型聚合知识点并提取固有的结构层次。受 Liu et al. (2024a) 的启发，我们采用标题列表来指导一个专门开发的 7B 模型识别文本块中的固有知识结构（如图 3 所示），附录 B.1 和附录 B.4 验证了我们的专用 7B 模型能够识别足够精确的知识结构，以实现高效且有效的领域适应。特别是，更强大的 LLMs（如 LLaMA3-70B 和 GPT-3.5）虽然不能显著提升效果，但会大幅增加推理成本。

3.2 结构感知持续预训练

在传统的知识注入方法中，训练语料库被随机拼接并划分为文本段，而不区分原始内容，这使得模型只能通过数据多样性来吸收领域知识（Ovadia et al., 2023; Mecklenburg et al., 2024; Qiu et al., 2024）。在本节中，我们提出了一种解决方案，通过利用高度抽象且全面的领域知识结构进行持续预训练，从而从有限的文本语料库中注入知识。我们首先使用相同的思维导图模板（Wen et al., 2023）将知识结构转换为自然语言（如图 3 左侧所示），并将其附加到每个训练块的前面，迫使 LLMs 在给定相关知识路径的条件下记忆文本内容（知识点）。我们从 GPT-4 收集了 20 种多样化的模板（如图 A5 所示），以桥接思维导图结构和训练块，其中一个模板如图 3 右侧所示。附加的思维导图以及模板不会产生自回归损失。损失仅在内容部分计算。形式上，我们将原始语言建模中的 vanilla CPT 转换为 SCPT 阶段中的条件建模（Keskar et al., 2019）：

3.3 结构感知监督微调

传统的监督微调旨在通过问答练习将（持续）预训练的模型对齐为交互式聊天机器人（Cui et al., 2023; Qiu et al., 2024）。以往的研究侧重于扩大训练合成的数量并增强其多样性（Xu et al., 2023a; Mukherjee et al., 2023; Liu et al., 2024b），但忽略了高度结构化的领域知识。相比之下，我们的结构感知监督微调（SSFT）技术旨在引出模型在 SCPT 阶段学到的结构化知识，使 LLMs 适应为交互式且可靠的领域专家。图 2（c）展示了 SSFT 样本合成，由领域知识结构指导。首先，我们使用随机游走算法在原始思维导图中创建包含 1 到 l 个分支的知识路径（知识路径和分支的示例见图 A2）。对于连接到单个知识点的路径，我们使用相应的文本内容提示 Llama3-70B 生成知识密集型问答对。对于包含两个或更多分支的路径，我们提示 Llama3-70B 使用知识路径和文本内容合成 2 跳或多跳问答样本，这些样本需要沿着知识结构进行特定推理，以从问题推导出答案。图 4 展示了一些示例。对于每个合成的问答样本（z），我们将在答案前面附加相关思维导图层次结构，并在问题中添加 CoT（Chain of Thought）提示，以构建另一种类型的问答数据（z′）用于 SFT 对齐。这种设计明确地引出模型在响应中的学到的知识，教导它们如何应用结构化知识来解决现实世界中的问题。我们使用这两种类型的问答样本进行训练，如 Qiu et al. (2024) 所建议的。在测试时，我们使用原始问题作为输入，以高效地收集模型的答案以计算准确率，并采用 CoT 提示来探测 LLMs 能在多大程度上记忆并利用注入的知识来回答问题。结合 SCPT 和 SSFT，我们的 StructTuning 方法在领域知识注入方面展现出显著的效率和效果，如后续部分的全面评估所示。

4 实验

我们通过在两个基准数据集上进行一系列实验，对 StructTuning 方法进行了广泛的评估。首先，我们在 LongBench（Bai et al., 2023b）数据集上进行了自由形式问答任务的实验，以验证模型对注入知识的记忆和理解能力（答案可以直接在训练语料库中找到）。然后，我们在 MMedBench（Qiu et al., 2024）数据集上进行了多项选择问答任务的实验，以探索 LLMs 如何将注入的医学知识应用于现实世界的患者诊断中。

4.1 自由形式问答的初步研究

数据集和任务

我们从 LongBench（Bai et al., 2023b）中选择了 7 个子集，共 1350 个测试样本，用于评估闭卷问答（CBQA）任务，答案可以直接在对应的段落中找到。我们使用 14K 阅读理解段落进行知识注入（通过 CPT/SCPT），并生成了 2700 个问答样本用于 SFT/SSFT。具体细节见附录 A.1。

评估指标

我们首先报告模型输出与真实答案之间的召回率（Zhu and Li, 2023b），以量化知识记忆程度。在附录 B.9 中，我们还使用 F1 分数进行了更全面的比较。

模型选择

我们主要研究 Llama2-7B（Touvron et al., 2023b）模型，以比较知识注入性能。

实施细节

我们使用 LongBench 段落对所有模型进行 3 个周期的训练，采用 128 的批量大小，并在合成的 SFT 数据上训练 1 个周期以避免过拟合。学习率设置为 2e-5。

主要结果

我们首先尝试使用传统的 CPT+SFT 范式将段落内容注入 LLMs 中作为基线，并在测试时使用 CoT 指令来引出模型记忆的知识。然而，表 1 显示这种注入方法效果不佳，知识召回率仅为 24.2%。相比之下，我们的 SCPT 策略实现了更高的知识召回率 26.7%。这表明模型已成功将相关段落与其整个知识结构关联起来，尤其是在需要在多个段落上进行复杂信息检索和推理的多文档问答任务中。此外，我们的 SSFT 技术进一步将知识召回率提高到 31.5%，表明传统的 SFT 策略只能规范 LLMs 的响应风格，而我们的 SSFT 可以教导 LLMs 利用在 SCPT 阶段注入的知识来回答相应的问题。图 5 展示了一个代表性示例。

表 1：LongBench（Bai et al., 2023b）上的闭卷问答（CBQA）召回率

图 5：结构化响应示例

问题：在深度学习中，用于方言检测和分类的模型有哪些？
知识结构：深度学习中的多语言方言检测和分类
├─ 探索使用深度学习技术进行多语言方言识别
├─ 神经网络在语言识别中的设计与实现
├─ 使用 CNN 和 LSTM 的多语言方言识别方法
├─ 使用 X-NMT 架构评估方言识别模型
└─ 使用 NMT 模型分析多语言方言识别系统

问题询问的是研究中用于方言识别的具体模型。通过回忆“提议方法”部分的内容，我们可以确定 BERT、RoBERTa 和 XLM-RoBERTa 被使用，因为这三种架构组合形成了 X-NMT 模型。
模型响应：BERT、RoBERTa、ELECTRA 和 XLM-RoBERTa。
真实答案：BERT、RoBERTa 和 XLM-RoBERTa。

在附录 B.8 中，我们还验证了对注入知识结构的良好记忆，进一步强调了 SCPT 的有效性。

4.2 深入的多项选择问答评估

数据集和任务

我们从 MMedC（Qiu et al., 2024）中选取不同规模的语料库用于 CPT/SCPT，并使用 MMedBench（Qiu et al., 2024）训练集中的 45K QA 数据用于 SFT/SSFT。模型在 MMedBench 的六个多项选择子集上进行评估，LLMs 需要根据医学知识进行逻辑推理，对现实世界的患者进行诊断。详细设置见附录 A.2。

评估指标

我们遵循默认设置，在六个语言子集上计算准确率，并计算平均分数。指标通过模型响应与真实答案之间的词汇精确匹配计算，而不是最大标记概率。

模型选择

我们扩展了模型架构和规模的评估，包括 Llama2-7B/13B（Touvron et al., 2023b）、InternLM2-7B（Zheng et al., 2024）和 Llama3-8B（Dubey et al., 2024）。其他流行的医学 LLMs（Han et al., 2023; Wu et al., 2024; Qiu et al., 2024）也包括在内，以进行全面比较。

实施细节

根据 Qiu et al. (2024)，模型首先在医学语料库上训练 3 个周期，学习率为 2e-5，然后进行 1 个周期的微调以避免过拟合。详细设置见附录 A.2。

主要结果

表 2 的结果显示，我们的 StructTuning 技术取得了显著的提升，大幅优于之前的领域特定 LLMs（如 PMC-LLaMA（Wu et al., 2024）和 MedAlpaca（Han et al., 2023））。值得注意的是，我们的结构化知识注入方法仅使用 76M 标记（0.3%）的医学教科书数据，就比最先进的 MMedLM 方法（Qiu et al., 2024）实现了超过 50% 的性能提升（2.57% 对 4.96%），而 MMedLM 方法需要使用整个 MMedC（Qiu et al., 2024）语料库的 25.5B 标记。当我们将训练标记扩展到 1.2B（约 5%）时，我们的方法将平均准确率提高了近 100%，显著降低了传统知识注入方法的训练成本。

表 2：MMedBench（Qiu et al., 2024）上的多项选择评估

方法的可扩展性

我们进一步整理了一系列不同规模的训练语料库，以深入研究我们方法的可扩展性：30M、76M、132M、250M 和 1.2B，分别占 25.5B 标记的 0.1%、0.3%、0.5%、1% 和 5%。我们对这些数据设置中的 vanilla CPT-SFT 范式和 SCPT-SSFT 策略进行了全面比较。根据图 6，我们的方法在所有数据设置中均大幅优于 vanilla 范式，强调了领域知识注入的有效性和效率。特别是，我们从 0.1%、0.3%、0.5% 和 1% 的数据点拟合了两个性能-比例缩放曲线：

图 6：知识注入的可扩展性

方法的泛化能力

在表 3 中，我们还通过使用 76M 标记验证了在 Llama2（Touvron et al., 2023b）和 InternLM2（Zheng et al., 2024）模型系列上的性能。我们的方法在 InternLM2-7B（+4.46%）、Llama2-7B（+8.78%）和 Llama2-13B（+6.17%）骨干模型上均实现了显著提升，进一步证明了 StructTuning 在不同模型架构和规模上的泛化能力和可扩展性。详细结果见表 A6。

表 3：不同模型架构和规模上的泛化能力

消融研究

我们在 MMedBench 的英语子集上进行了全面的消融研究（见表 4）。根据 Qiu et al. (2024) 的建议，我们使用英语教科书（Jin et al., 2020；26M 标记）比较 vanilla 和结构化 CPT，并配对相应的 SFT 策略。特别是，“SFT” 使用 vanilla SFT，搭配 MMedBench 训练集中的 10K QA 样本，而“SSFT” 应用结构化 SFT，对相同问题进行增强，添加由 Llama3-70B 生成的知识解释（见第 3.3 节）。“SSFT*” 进一步增加了 8K 额外的结构化 QA 对，总计 18K 训练条目。训练超参数与主实验一致。在表 4 中，CPT+SFT 范式将准确率提高了 1.73%，而 SCPT 搭配 vanilla SFT 实现了更高的 46.50%。结合 SCPT 和 SSFT 显著提升了性能（49.96% 对 44.54%），突显了结构化知识引出的重要性。增加 8K 额外 QA 对（“SSFT*”）进一步在五个子集上提升了性能，展示了令人惊讶的跨语言知识迁移能力（Lai et al., 2023; Qin et al., 2024）。经过 SSFT 后，LLMs 能够有效利用在一种语言中注入的知识来解决其他语言中的问题，超越了传统的 SFT。附录 B.6 中的额外比较确认了结构化合成比随机合成更能增强知识应用。此外，我们观察到常用的 RAG（Lewis et al., 2020）策略在 MMedBench 评估中并未带来显著优势。主要原因在于预训练语料库（包含教科书中的官方知识声明）与评估 QA 样本（源自实际诊断记录）之间存在差距。通过（S）CPT 和（S）SFT 进行的知识注入在这种情况下更具优势。深入研究可在附录 B.7 中找到。

表 4：MMedBench 英语子集上的消融研究

与其他方法的比较

我们还在表 4 中比较了两种先进的知识注入方法，以进一步证明 StructTuning 的有效性：（1）AdaptLLM（Cheng et al., 2023）：通过将阅读理解 QA 添加到每个 CPT 块来注入领域知识；（2）RAFT（Zhang et al., 2024）：通过使用带噪声的检索增强 SFT 样本，提高 LLM 对领域特定检索增强生成的鲁棒性。根据实验结果，AdaptLLM（Cheng et al., 2023）在最终性能上几乎没有提升（例如，在英语子集上为 46.79% 对 46.27%），表明在 CPT 期间对块进行阅读理解增强无法帮助 LLMs 捕捉整个结构化领域知识。与此同时，RAFT（Zhang et al., 2024）导致了更糟糕的性能，因为检索过程引入了太多不相关的块，损害了 LLMs 的 QA 判断能力，尤其是在医学诊断场景中，用户查询与知识块之间存在显著的语义差距。

4.3 结论

本研究开创性地将结构化方法引入大型语言模型的领域知识注入中。通过新颖的 SCPT-SSFT 范式，我们为将 LLMs 适应于特定领域树立了新的标杆，而令人鼓舞且可扩展的结果强调了我们方法的可行性和潜力。我们希望激发 LLM 社区在高效且有效的领域适应性方面的进一步研究，朝着真正能够模仿人类智能的模型迈进。限制：我们的两阶段策略引入了额外的计算复杂性，在 SCPT 阶段需要进行分类体系提取和数据重组，而在 SSFT 阶段可以选择性地应用额外的 QA 合成。在附录 B 中，我们通过广泛的实证实验进一步讨论了这一点。尽管引入了额外的计算开销，但我们的方法实现了更大的整体效益，并且可以减少对大规模 LLMs（例如 70B 模型）的依赖。我们将在未来的研究中深入探讨这一问题。

5 结论

本研究开创性地将结构化方法引入大型语言模型的领域知识注入中。通过新颖的 SCPT-SSFT 范式，我们为将 LLMs 适应于特定领域树立了新的标杆，而令人鼓舞且可扩展的结果强调了我们方法的可行性和潜力。我们希望激发 LLM 社区在高效且有效的领域适应性方面的进一步研究，朝着真正能够模仿人类智能的模型迈进。

限制

我们的两阶段策略引入了额外的计算复杂性。在 SCPT 阶段，需要进行分类体系提取和数据重组；在 SSFT 阶段，可以选择性地应用额外的 QA 合成。尽管引入了额外的计算开销，但我们的方法实现了更大的整体效益，并且可以减少对大规模 LLMs（例如 70B 模型）的依赖。在附录 B 中，我们通过广泛的实证实验进一步讨论了这一点。我们将在未来的研究中深入探讨这一问题。