基础智能体的进展与挑战第 20 章【智能体外在安全：交互风险】

最新推荐文章于 2025-08-22 13:05:42 发布

翻译最新推荐文章于 2025-08-22 13:05:42 发布 · 126 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://www.arxiv.org/pdf/2504.01990

文章标签：

#安全 #人工智能 #智能体 #教程 #交互 #风险 #进展

人工智能专栏收录该内容

38 篇文章

订阅专栏

第 20 章

智能体外在安全：交互风险

随着 AI 智能体的发展并与日益复杂的环境互动，与这些互动相关的安全风险已成为一个关键问题。本章重点关注 AI 智能体与记忆系统、物理和数字环境以及其他智能体的交互。这些交互使 AI 智能体面临各种漏洞，范围从记忆损坏和环境操纵到多智能体系统中的对抗性行为。通过审视这些交互风险，我们旨在强调在现实世界应用中可能破坏 AI 智能体完整性和可靠性的各种威胁。以下各节将详细探讨这些挑战，讨论具体的攻击向量及其对系统安全的影响。

20.1 智能体-记忆交互威胁

外在记忆模块作为认知存储库，使智能智能体能够存储、检索和情境化信息，通过积累的经验促进持续学习和执行复杂任务。检索增强生成（RAG）是其最突出的实现方式。然而，RAG 框架容易受到对抗性操纵，这些操纵会欺骗智能体检索并利用有害或误导性的文档。AgentPoison [1194] 利用了这一漏洞，对 AI 智能体执行后门攻击，通过毒化 RAG 知识库，确保后门触发的输入检索到恶意示例，同时在良性查询上保持正常性能。ConfusedPilot [1353] 揭示了一类 RAG 系统漏洞，这些漏洞通过提示注入攻击、检索缓存利用和错误信息传播，损害了 Copilot 的完整性和机密性。具体来说，这些攻击操纵了输入给大语言模型的文本，使其生成符合对抗性目标的输出。PoisonedRAG [1354] 是首次针对 RAG 的知识腐蚀攻击，通过注入最少的对抗性文本来操纵大语言模型的输出。它被构建为一个优化问题，在大型数据库中，仅需对每个目标问题注入五个毒化文本即可达到 90% 的成功率。Jamming [1355] 引入了一种针对 RAG 系统的拒绝服务攻击，其中，将单个对抗性的“阻塞”文档插入到不受信任的数据库中，即可扰乱检索或触发安全拒绝，阻止系统回答特定查询。BadRAG [1356] 通过语料库毒化暴露了基于 RAG 的大语言模型的漏洞，攻击者将多个精心制作的文档注入数据库，迫使系统检索对抗性内容并对目标查询生成不正确的响应。仅引入 10 个对抗性段落（占语料库的 0.04%），它就达到了 98.2% 的检索成功率，将 GPT-4 的拒绝率从 0.01% 提高到 74.6%，负面响应率从 0.22% 提高到 72%。TrojanRAG [1357] 对 RAG 系统执行联合后门攻击，通过对比学习优化多个后门快捷方式，并利用知识图谱增强检索以实现细粒度匹配。通过系统地规范化后门场景，它评估了现实世界的风险和模型越狱的可能性。最后，一种隐蔽的后门攻击 [1358] 利用语法错误作为触发器，允许大语言模型对标准查询正常运行，但在存在微小语言错误时检索攻击者控制的内容。该方法利用密集检索器对语法不规则性的敏感性，使用对比损失和难负例采样，确保后门触发器保持不可感知，同时实现精确的对抗性控制。

20.2 智能体-环境交互威胁

根据交互方式，智能体可以分为两类：物理交互智能体和数字交互智能体。物理交互智能体在现实世界中运行，使用传感器和执行器来感知和影响其环境。这类智能体的例子包括自动驾驶汽车和机器人系统。相比之下，数字交互智能体在虚拟或网络化环境中运作，处理来自数字源的数据并做出响应。这些包括 AI 驱动的聊天机器人、网络安全系统和自动化交易算法。

图 20.1：智能体外在安全：对智能体-记忆、智能体-环境和智能体-智能体交互的威胁。

物理环境中的威胁。在物理世界中运行的智能体，如机器人和自动驾驶汽车，由于与动态且可能具有对抗性的环境互动，面临着独特的安全挑战 [1359, 1360, 1366]。一个主要威胁是传感器欺骗，攻击者操纵传感器输入以欺骗智能体关于其周围环境的信息。例如，GPS 欺骗可能通过误导自动驾驶汽车其实际位置，对无人机（UAV）和其他依赖 GPS 的平台构成重大风险。这使得恶意重定向或劫持成为可能 [1361]。类似地，激光雷达（LiDAR）欺骗可以引入实际不存在的虚假障碍物，可能导致导航失败或安全隐患 [1362]。另一个关键风险是执行器操纵，即对手控制智能体的执行器，迫使其执行非预期的物理动作。这可以通过直接篡改硬件或利用控制执行器功能的软件漏洞来实现 [1363]。此类攻击可能危及智能体的行动，导致物理伤害或任务失败。此外，利用环境危害也是一个严重威胁。攻击者可能引入物理障碍或操纵环境条件以干扰智能体的操作。例如，使用像 LiDAR-Adv 这样的技术创建的对抗性物体可以欺骗基于 LiDAR 的自动驾驶系统，诱导传感器误解，从而降低检测可靠性并增加现实世界的安全风险 [1364]。最后，物理行为中的错位可能破坏自主智能体的安全。智能体的感知与其环境的实际物理约束之间的差异可能导致不安全或不可行的行动。例如，学习到的运动策略与现实世界物理特性之间的不匹配——如错误判断地形刚度或障碍物尺寸——可能导致自主智能体采取危险的步骤（例如，在崎岖表面上不稳定的步态）。这种情况在先前的系统中已有观察，由于不受控制的摔倒，需要超过 100 次手动重置 [1365]。

数字环境中的威胁。在数字环境中运行的智能体，如软件智能体和基于网络的智能体，由于依赖外部数据源和计算资源，面临着独特的安全挑战 [1333, 1366]。一个主要威胁是代码注入，恶意行为者将有害代码引入智能体的环境，导致意外命令执行 [1367]。这些攻击通常利用软件漏洞或智能体与之交互的受损外部资源，可能导致对智能体操作的未授权控制 [1202]。环境注入攻击（EIA）利用通用网络智能体中的隐私风险，秘密窃取用户的个人身份信息（PII），成功率高达 70% [1370]。AdvWeb 是一个自动化的对抗性提示生成框架，旨在误导黑盒网络智能体执行有害操作 [1371]。另一个关键风险是数据操纵，攻击者更改智能体接收的信息，导致错误的决策或行动 [1333]。例如，交易智能体可能被操纵的金融数据误导，导致错误的交易；或者信息收集智能体可能被伪造的新闻文章欺骗，扭曲其输出。这种操纵可能产生级联效应，尤其是在依赖准确数据进行决策的自动化系统中。除了直接操纵，拒绝服务（DoS）攻击也构成严重威胁，通过向智能体的数字环境发送过多请求或数据来使其不堪重负，有效地使其无响应或导致崩溃 [1368]。这些中断对于可用性和响应性至关重要的时间敏感型应用尤其有害。此外，资源耗尽是一个重大威胁，因为对手可能利用智能体的资源管理机制来耗尽计算资源，导致对其他用户的服务拒绝或整体系统不稳定 [1369]。通过耗尽处理能力、内存或带宽，攻击者可以严重削弱智能体的有效运作能力，干扰其操作并降低其效率。在应对大语言模型智能体的安全挑战方面，提出了 AGrail 作为一个终身护栏框架，通过调整安全检查以减轻特定任务和系统性风险，增强了智能体的安全性，并在各种任务中展示了强大的性能和可转移性 [1372]。

20.3 智能体-智能体交互威胁

在多智能体系统中，智能体之间的交互可能引入新的安全漏洞 [1380]。这些交互主要是竞争性的（智能体试图超越对方）或合作性的（它们协同工作）。

竞争性交互中的威胁。当智能体竞争时，它们通常使用欺骗性方法来获得优势 [1373]。例如，它们可能传播虚假信息或让其他智能体误判情况，以欺骗它们 [1374]。这可能导致对手做出糟糕的决策，削弱其地位。除了错误信息，智能体也可能试图利用对手算法或策略中的弱点 [1375]。通过识别这些弱点，它们可以预测和操纵其他智能体的行为，从而在竞争中获得优势。此外，一些智能体可能使用破坏性技术，如拒绝服务（DoS）攻击，用不必要的请求淹没对手的系统，干扰通信并阻碍其功能 [1376]。竞争性交互中的另一个威胁是秘密协作。有时智能体即使在违反规则的情况下也会秘密合作，以操纵结果使其对自己有利 [1377]。这种串通破坏了公平性，损害了系统的完整性，因为它使竞争向他们倾斜。

合作性交互中的威胁。在合作情境中，即智能体为共同目标而协同工作时，安全威胁可能损害系统的稳定性和可靠性。一个风险是无意的信息泄露，即智能体在通信过程中意外共享敏感数据。这可能导致隐私侵犯或未经授权的访问，削弱系统的可信度。除了数据泄露，一个智能体犯的错误可能会在整个系统中传播，导致更大的故障并降低整体性能。[1378] 在开放域问答系统（ODQA）中讨论了这个问题，其中系统一部分的错误可能会波及并影响其他组件，严重影响可靠性。如果一个被入侵的智能体引入了一个传播给其他智能体的漏洞，情况会变得更糟。如果黑客成功控制了一个智能体，他们可能利用整个系统中的弱点，导致重大的安全故障 [1379]。这种广泛的妥协是危险的，因为它可能从一个小小的缺口开始并迅速升级。另一个挑战来自智能体之间同步不良。如果智能体没有同时更新信息或经历通信延迟，可能会导致决策问题。更新中的错位或延迟会干扰协调，使智能体更难有效地实现其共同目标。这些挑战强调了在合作性多智能体设置中需要强大的安全系统，以保持其可靠性和抗攻击性。

20.4 总结与讨论

前面的章节详细说明了 AI 智能体与记忆系统、物理和数字环境以及其他智能体交互时产生的重大安全风险。这些风险，从数据毒化和代码注入到传感器欺骗和串通，突显了日益复杂的基于智能体的系统固有的脆弱性。然而，随着 AI 智能体变得越来越强大，利用自然语言理解和专业工具进行复杂推理，研究人员正在积极开发安全协议来应对这些挑战。这些协议对于通用智能体和特定领域智能体的方法有所不同。

通用智能体，设计用于跨不同领域的多功能性，面临着广泛的安全挑战。为了减轻这些风险，研究人员开发了几种方法来增强其安全性。评估机制，如 AgentMonitor [1381]，通过监控智能体的决策过程并识别潜在的不安全行为来评估智能体的安全意识。R-Judge [1382] 通过评估智能体对恶意和良性查询的响应来量化其风险意识，为安全合规性提供了一种系统方法。此外，风险检测工具，如 ToolEmu [795]，在受控环境中模拟工具使用，以暴露智能体交互中的漏洞。这种方法可以在任务执行期间识别潜在危险，使开发人员能够主动解决漏洞。这些综合努力通过全面的评估和风险检测增强了通用智能体的安全性。

特定领域智能体，专为科学研究等高风险环境中的专业任务量身定制，需要更严格的安全措施。安全工具，如 ChemCrow [1383]，旨在通过审查用户查询和过滤恶意命令来减轻化学合成任务中的风险，确保智能体不会无意中合成危险化学品。结构化任务约束，如在 CLAIRify [1384] 中实施的，通过对材料合成顺序施加高层约束以及对操纵和感知任务施加低层限制来增强实验安全性，从而防止事故和错误。此外，像 SciGuard [1385] 这样的基准测试（包括 SciMT-Safety 基准测试），通过衡量无害性（拒绝恶意查询）和有用性（有效处理良性查询）来评估模型安全性。SciGuard 还结合了长期记忆，以增强智能体安全执行复杂指令同时保持准确风险控制的能力。这些专注的方法确保了特定领域智能体在其专业领域内安全有效地运行。

总之，在开发创新的评估机制和风险缓解策略以增强通用和特定领域 AI 智能体的安全性方面已取得显著进展。然而，未来研究的一个关键领域在于整合这些方法。在通用智能体的广泛能力与特定领域智能体的专注保障之间建立更强的联系，对于创建真正健壮和可信赖的大语言模型系统至关重要。挑战在于结合两种方法的最佳方面，以开发既通用又安全的智能体。