【什么是RAG】

最新推荐文章于 2025-08-20 22:56:05 发布

CLubiy

最新推荐文章于 2025-08-20 22:56:05 发布

阅读量1.2k

点赞数 31

CC 4.0 BY-SA版权

分类专栏： RAG 知识库大模型应用文章标签：人工智能自然语言处理语言模型全文检索搜索引擎

本文链接：https://blog.csdn.net/JZTmaxcyh/article/details/150556625

RAG 同时被 3 个专栏收录

6 篇文章

订阅专栏

知识库

6 篇文章

订阅专栏

大模型应用

6 篇文章

订阅专栏

1.5 检索增强生成（RAG）

检索增强生成是当前大模型技术栈中的关键组成部分，通过结合信息检索与文本生成的能力，显著提升了大型语言模型的实用性和可靠性。从本质上讲，RAG是一种"知识外挂"技术，在不修改大模型内部参数的情况下，赋予模型访问外部知识源的能力，使其生成内容更加准确、专业且与时俱进。这一技术自2020年由Facebook AI Research首次提出后迅速成为行业标准，被广泛应用于各类需要专业知识支持的大模型应用场景。

RAG的 核心思想 可以概括为"先检索，后生成"的两阶段流程。当系统接收到用户查询时，首先从外部知识库中检索与问题最相关的文档或段落，然后将这些检索到的信息与大模型自身的知识相结合，生成最终的回答。这种方法不同于传统大模型完全依赖内部参数记忆的知识调用方式，而是构建了一种动态的知识获取机制，使模型能够突破训练数据的时空限制，获取最新、最相关的信息。
在这里插入图片描述

从技术架构上看，RAG系统主要由三个关键组件构成：检索器、知识库 和 生成器。检索器通常采用密集向量检索技术，将用户查询和知识库文档都编码为高维向量，通过计算余弦相似度等度量找出最匹配的内容。知识库则是专业信息的结构化集合，可以包含企业文档、行业报告、研究论文等多种形式，通常存储在向量数据库中以便高效检索。生成器则是大模型本身，负责将检索到的信息与用户问题结合，生成连贯、准确的回答。

RAG的__工作流程__可以分为四个标准化步骤：查询编码、向量检索、上下文增强 和 内容生成。在查询编码阶段，用户的自然语言问题被转换为机器可理解的向量表示；向量检索阶段则在知识库中查找与查询向量最接近的文档片段；上下文增强阶段将检索结果与原始问题组合成增强提示词；最后，大模型基于这一增强提示词生成最终回答。这种机制使得系统既能利用大模型强大的语言理解和生成能力，又能确保输出内容建立在权威、最新的信息基础上。

与传统大模型应用相比，RAG最显著的 差异化特征 在于 知识更新机制。普通大模型的知识截止于其训练数据的最后时间点，而RAG系统可以通过更新外部知识库来实时获取新知识，无需重新训练模型。例如，一个基于RAG的金融分析系统可以即时整合当天发布的经济指标和市场数据，而传统大模型可能还在使用数月前的信息。这种动态知识更新能力在信息变化迅速的领域如医疗、法律、金融等尤为重要。

从知识表示的角度看，RAG实现了"参数化知识"(大模型内部参数中的知识)与"非参数化知识"(外部知识库中的知识)的 有机结合。大模型的参数化知识提供了通用的语言理解、推理和生成能力，而外部知识库则提供了专业、精确且可即时更新的领域知识。这种混合架构既保留了大规模预训练带来的广泛能力，又克服了纯参数化方法在知识更新和专业性方面的局限，代表了大模型应用的一个重要发展方向。

1.6 为什么需要RAG

大型语言模型 虽然展现出惊人的语言理解和生成能力，但其固有的 结构性局限 使得RAG技术成为必要而非可选的增强方案。这些局限主要体现在知识时效性、事实准确性、领域适应性和可控性等方面，而RAG恰能针对性地解决这些问题，大幅提升大模型在实际应用中的可靠性和实用性。

知识时效性 问题是大模型面临的最突出挑战之一。主流大模型如GPT-4的训练数据通常存在明确的 截止日期（如2023年），这意味着它们无法自动获取和整合此后的新知识、事件或研究成果。在金融领域，模型可能不了解最新的监管政策；在医疗领域，可能错过近期批准的药物或治疗方案。RAG通过实时检索外部知识源完美解决了这一难题，使系统能够基于最新信息生成回答。例如，当用户询问"2024年诺贝尔医学奖得主及其贡献"时，传统大模型只能表示不知或猜测，而RAG系统可以从最新新闻或学术数据库中检索准确信息并生成正确回答。
在这里插入图片描述

事实准确性 与"幻觉"问题同样制约着大模型的应用。由于基于概率生成文本的本质，大模型常常会生成看似合理但实际上不正确的内容，这种现象被称为"幻觉"。在专业场景如法律咨询或医疗诊断中，这种幻觉可能造成严重后果。RAG通过 锚定机制 将模型输出约束在检索到的权威信息范围内，显著降低了错误率。测试表明，在专业问答任务中，采用RAG的大模型比纯生成模型的事实准确性可提升30-50%。当模型被要求回答特定事实性问题时（如某上市公司的财务数据），RAG会首先从企业年报或权威财经数据库检索相关数据，再基于这些确切信息生成回答，而非依赖模型可能不准确的记忆。

从 领域适应性 角度看，通用大模型在 专业领域 的表现往往不尽如人意。虽然这些模型通过海量数据训练获得了广泛的世界知识，但对于法律、医学、工程等高度专业化的领域，其深度和精确度明显不足。传统解决方案是对模型进行微调(Fine-tuning)，但这种方法需要大量标注数据和计算资源。RAG提供了一种更灵活、经济的替代方案——通过构建专业领域知识库，使通用大模型能够生成专业内容而无需重新训练。例如，在法律领域，RAG系统可以即时查询最新的法律法规和判例库，提供准确的法律意见，而无需专门训练一个法律大模型。

RAG还大幅提升了系统的 透明度和可控性，这是许多企业应用的关键要求。传统大模型作为"黑箱"，其决策过程和知识来源难以追溯，这在要求严格的行业构成重大障碍。RAG系统则可以提供生成答案的 具体依据，标明引用的文档和段落，使用户能够验证信息的可靠性。当发现错误时，管理员可以直接修改知识库中的相关内容，而无需调整模型参数。这种透明性和可干预性使RAG在医疗、金融等高风险领域特别有价值，医生或分析师可以核查AI建议的来源，评估其可信度。

从 成本效益 角度分析，RAG提供了一种 经济高效 的知识更新方案。训练或微调一个大模型可能需要数百万美元的计算成本和数周时间，而每次知识更新都重新训练显然不切实际。RAG仅需更新外部知识库，成本低廉且即时生效。法律科技公司LexisNexis的实践表明，通过RAG系统维护法律知识库的成本比定期微调模型低90%以上，而准确性却更高。对于知识快速变化的领域，这种成本优势使RAG成为唯一可行的解决方案。

表：RAG解决的大模型关键局限及实现机制

大模型局限	具体表现	RAG解决方案	技术实现机制	应用示例
知识时效性	训练数据截止后无法获取新知识	实时检索最新信息	动态查询可更新的知识库	金融分析、新闻摘要
事实准确性	产生看似合理但错误的"幻觉"	基于检索事实约束生成	检索结果作为生成锚点	医疗诊断、法律咨询
领域适应性	专业深度不足，术语理解不准确	接入领域知识库	专业文档向量化检索	工程文档、科研论文
透明度不足	黑箱决策，来源不可追溯	提供引用和参考	标记生成内容的来源文档	合规报告、学术研究
更新成本高	重新训练耗费大量资源	外部知识独立更新	分离参数知识与非参数知识	企业知识管理、产品手册

1.7 RAG的核心优势

RAG技术 之所以能迅速成为大模型应用的关键组件，源于其一系列 不可替代的优势，这些优势使其在知识密集型任务中表现远超传统方法。通过深入分析，我们可以识别出RAG在知识实时性、成本效益、合规可控性以及系统性能等方面的突出价值，这些特性共同构成了企业选择RAG而非其他技术方案的决定性因素。

1，知识实时更新。在信息爆炸的时代，知识的 半衰期 不断缩短——医疗知识约5年减半，金融法规甚至每年都有重大更新。传统大模型的静态知识架构完全无法适应这种变化节奏，而RAG通过外部知识库的动态更新，确保系统始终基于最新信息运作。例如，当COVID-19疫情期间治疗指南频繁更新时，基于RAG的医疗问答系统可以即时整合最新临床建议，而传统系统则需要等待下一次模型迭代。这种实时性不仅体现在内容更新上，还包括对用户个性化数据的访问——企业CRM系统中的客户信息、个人健康记录等都可以通过RAG实时纳入生成过程，实现真正的情境感知智能。

2，成本效益极高的知识整合方案。微调一个大模型可能需要数十万美元的计算成本和数周时间，而部署RAG系统的主要投入在于知识库建设和检索机制优化，初始成本可降低80%以上。更重要的是，RAG的持续更新成本极低——更新知识库与更新普通数据库无异，而微调则需要每次重新训练。彭博社的案例分析显示，其金融终端采用RAG方案后，知识维护成本减少了75%，而信息时效性却显著提升。对于中小企业或预算有限的项目，这种成本优势使专业级AI应用变得可行。

3，生成内容合规性与可控性。在许多 受监管行业 如金融、医疗等，AI系统的决策必须可审计、可解释，且数据来源必须符合隐私和合规要求。RAG的透明架构天然支持这些需求——所有生成内容都可以追溯至具体的知识库文档，便于审核和验证；敏感信息可以按权限分级管理，确保不同角色只能访问授权内容。相比之下，微调将知识"黑箱化"地编码进模型参数，难以证明合规性。例如，某跨国银行采用RAG构建信贷审批助手，可以明确展示每项建议所依据的监管条款，满足了金融监管机构的严格要求。

4，性能可扩展性。随着知识库规模扩大，传统微调方法面临 灾难性遗忘（新知识覆盖旧知识）和计算成本飙升的问题，而RAG通过高效的向量检索技术，可以轻松应对数亿级文档的实时查询。华为发布的鲲鹏RAG一体机展示了这种扩展能力——基于openGauss的DataVec向量数据库实现1亿数据容量下检索延迟仅50ms，完全满足企业级知识库的性能需求。这种可扩展性使RAG特别适合知识不断积累的大型组织，如法律事务所的判例库或制药公司的研究文献库。

5，模块化设计。知识库、检索算法和生成模型可以分别升级而不相互干扰——知识库扩容无需调整模型参数，模型升级也不影响已有知识库。这种低耦合架构大幅降低了系统维护的复杂度和风险。相比之下，微调模型是高耦合的整体，任何变更都需要全面重测。微软的实践表明，模块化RAG系统的新功能上线速度比微调方案快3-5倍，极大提高了AI应用的迭代效率。

表：RAG与传统微调方案的核心优势对比

评估维度	RAG方案	微调方案	RAG优势体现	典型受益场景
知识实时性	即时更新，分钟级生效	需重新训练，周/月级更新	快100-1000倍	金融分析、疫情追踪
经济成本	初始和持续成本均低	初始训练成本高，更新需重投	节省70-90%成本	中小企业、多领域应用
合规可控	来源可追溯，权限易管理	黑箱决策，合规证明困难	满足严格监管要求	银行业、医疗诊断
系统性能	亿级文档毫秒检索	模型规模制约知识容量	支持超大规模知识库	企业搜索引擎、文献系统
架构灵活性	模块化，组件独立升级	紧耦合，变更需整体调整	迭代速度快3-5倍	快速迭代的创业公司

从长远来看，RAG的优势还体现在 技术演进 的适应性上。大模型技术日新月异，而RAG作为中间件层，可以相对容易地适配新一代模型。企业投资建设的知识库不会因模型升级而报废，保护了技术投资。同时，RAG架构也准备好融入更前沿的技术如神经数据库、动态推理等，保持系统持续进化能力。这种面向未来的特性使RAG成为企业AI战略的安全选择，避免了被单一模型架构锁定的风险。

1.8 RAG与微调的区别

RAG与微调 代表了赋予大模型专业知识的 两种范式，它们在技术实现、适用场景和系统特性上存在根本性差异。深入理解这些区别对于企业选择合适的技术路线至关重要，特别是在资源有限需要明确投资方向的情况下。这两种方法并非完全对立，而是各有优劣，适用于不同需求场景的互补性解决方案。
在这里插入图片描述

从 知识整合机制 看，RAG与微调体现了 外部化与内部化 的根本分歧。RAG保持大模型参数不变，将专业知识存储在外部知识库中，通过检索机制在推理时动态获取相关信息。这类似于人类专家在回答问题时查阅参考资料。而微调则是通过训练将知识"内化"到模型参数中，改变模型自身的权重分布，使其直接"记住"专业知识。这种差异导致了两者在知识更新灵活性上的巨大差距——RAG只需更新知识库内容，而微调则需要重新训练模型参数，前者在时效性和成本上具有显著优势。

知识更新频率 是区分两种方法适用场景的关键因素。RAG特别适合 高频更新 的知识领域，如新闻媒体、金融市场或政策法规。在这些领域，信息可能每天甚至每小时都在变化，微调完全无法跟上这种节奏。相反，对于相对稳定的专业知识（如基础物理学原理或历史事实），或者需要模型深度"理解"而非表面检索的复杂知识（如编程范式或数学证明技巧），微调可能更合适，因为 内化的知识 能够支持更深入、更灵活的推理。例如，Python编程语言的语法规则相当稳定，适合通过微调让模型掌握；而Python生态中各库的最新API变化则更适合通过RAG提供。

从 系统架构 角度看，RAG和微调代表了 低耦合与高耦合 的不同设计哲学。RAG系统由相对独立的组件（检索器、知识库、生成器）组成，各部分可以分别优化和升级。这种模块化架构降低了系统维护的复杂度和风险，也便于针对不同部门或业务线部署定制化知识库。微调则产生一个统一的端到端模型，所有知识都被编码在参数中，虽然部署简单但缺乏灵活性。企业可以根据自身IT策略选择适合的架构——组织结构复杂、知识体系多样的组织可能偏好RAG的模块化；而追求部署简便的小团队可能倾向微调的一体化方案。

表：RAG与微调的核心特性对比

对比维度	RAG	微调	差异实质	典型选择场景
知识整合方式	外部知识库动态检索	内部参数编码知识	外挂vs内化	高频更新vs稳定知识
更新机制	即时更新知识库内容	需重新训练模型	分钟级vs周/月级	新闻分析vs基础研究
系统架构	模块化，组件分离	端到端，一体化	松耦合vs紧耦合	企业级系统vs垂直应用
成本结构	初始中等，更新成本低	初始高，更新成本高	运营成本差异	预算有限项目vs长期投资
推理延迟	较高(需检索步骤)	较低(直接生成)	速度差异	非实时场景vs实时交互
专业性深度	依赖检索质量，广度优先	深度整合，理解优先	表面关联vs深层模式	事实查询vs复杂推理

计算成本与资源需求 是实践选择中的重要考量。微调大模型是 计算密集型 任务，需要大量GPU资源和专业技术支持。以Qwen2.5-72B为例，全参数微调可能需要数十块A100显卡运行数天，成本可达数万美元。相比之下，RAG的部署主要消耗在向量数据库建设和检索优化上，对计算资源需求低得多，普通服务器即可支持。但值得注意的是，RAG的每次查询需要额外检索步骤，可能增加 推理延迟 和运营成本，特别是在高频查询场景下。

功能定制化 需求也影响技术选择。如果需要改变模型的 回答风格 或 特殊能力（如让模型以特定语气回答，或掌握独特的推理方式），微调是必要手段。例如，打造一个具有品牌特色的客服机器人，需要微调来塑造其语言风格；开发一个专门生成特定类型诗歌的AI，也需要通过微调"教会"模型这种创作方式。RAG主要增强模型的知识而非能力，无法实现这类深度定制。猎豹移动的实践表明，结合微调和RAG的混合方案往往能取得最佳效果——微调塑造核心能力，RAG提供实时知识。

领域专注度 是另一个决策因素。对于需要 高度专业化 的单一领域应用（如医学影像分析或法律文书起草），微调可以打造出领域专家级模型。这类模型虽然通用能力可能下降，但在专业任务上表现卓越。RAG则更适合需要 广谱知识 支持的应用（如企业智能客服或综合研究助手），它可以同时接入多个领域的知识库，满足多样化的查询需求。例如，IBM的Watson Health同时采用两种方法——通过微调获得基础医学理解能力，再结合RAG整合最新临床研究数据，达到最佳诊断建议效果。

从 风险管控 角度看，RAG的 透明性 和 可干预性 使其在高风险领域更受青睐。由于所有生成内容都可以追溯至具体知识来源，错误更容易被发现和纠正——只需修改知识库中的相关条目即可。微调模型则像一个黑箱，错误修正需要重新训练，过程复杂且效果不确定。在医疗、航空等容错率极低的领域，这种可控性差异可能成为选择RAG的决定性因素。傅盛在猎户星空大模型发布会上特别强调，RAG因其精确控制和可解释性，已成为企业级AI应用的首选技术。