大模型（LLM）输入风险及安全保障机制

原创于 2025-08-22 12:49:08 发布 · 456 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#安全 #大模型安全 #数据投毒 #越狱攻击

大模型同时被 2 个专栏收录

184 篇文章

订阅专栏

安全

20 篇文章

订阅专栏

大模型（LLM）的安全保障涉及从开发到部署的各个环节。这包括应对数据投毒、越狱攻击等安全风险，并需要技术手段、管理流程和标准规范共同作用。
在这里插入图片描述

下面表格汇总了其主要安全风险、受影响环节及潜在影响，帮你快速建立整体认识：

安全风险	简要描述	主要受影响环节	潜在影响
数据投毒	训练数据被恶意污染，植入偏见或后门	模型训练阶段	模型输出带有偏见、生成不安全代码或泄露敏感信息
越狱攻击	通过特定提示词绕过模型安全机制	模型推理阶段	模型生成不当内容、泄露隐私或执行恶意操作
提示词注入	通过精心构造的输入误导模型行为	模型推理阶段	模型被操控进行未授权操作、数据泄露
模型窃取	通过API查询等方式窃取模型参数或功能	模型部署与服务阶段	知识产权损失、模型被复制滥用
成员推断攻击	判断特定数据是否用于模型训练	模型训练与部署阶段	训练数据隐私泄露
对抗性样本	对输入添加难以察觉的扰动，导致模型错误分类或输出	模型推理阶段	模型判断被干扰，系统可靠性下降
AI智能体滥用	利用AI智能体的自动化能力进行大规模恶意操作	模型应用与集成阶段	自动化攻击、数据批量泄露、系统被持续控制

🛡️ 大模型安全的技术保障

大模型的安全需要“技管并重”。下面介绍一些关键的技术手段：

强化训练数据安全：训练数据的质量直接影响模型的安全性。需要对数据进行清晰识别和过滤，并控制数据来源，以防止“数据投毒”和偏见注入。
改进模型对齐技术：在模型训练阶段，通过监督微调（SFT）、从人类反馈中进行强化学习（RLHF） 等技术，使模型的行为与人类价值观和安全性目标保持一致。
实施运行时监控与防护：
- 输入/输出过滤与审核：对用户输入和模型生成的内容进行实时检测，过滤有害、敏感或不合规的内容。例如，Google Cloud 的 Security Command Center 提供了 Sensitive Data Protection 功能来识别和打码机密信息。
- 实时检测与响应：监控模型的异常行为，如突然生成大量输出、频繁访问敏感接口等，并及时触发防护机制。Google 的 Model Armor 功能可以筛查 AI 智能体、工具和 MCP 服务器之间的交互，降低提示词注入和工具中毒的风险。
采用隐私保护技术：
- 机密计算：使用 可信执行环境（TEE） 等硬件安全技术保护模型和数据的隐私。例如，TEE+Legacy GPU 混合算力方案将模型的轻量层计算纳入 TEE 可信域保护，屏蔽来自主机的特权访问，从而阻断模型窃取、Prompt 窃取等可能的攻击。
- 联邦学习：允许模型在本地数据上训练，只共享参数更新，避免原始数据集中，减少隐私泄露风险。
保障应用与集成安全：
- 对 AI 智能体实施严格的身份认证、权限控制和操作审计，防止其被恶意利用或越权操作。
- 在使用 检索增强生成（RAG） 时，确保外部知识库的来源可靠，并防范“知识库投毒”攻击。国防科技大学的研究团队提出了 CodeGuarder 框架，通过向模型注入安全知识来防御此类攻击。

📜 遵循标准与最佳实践

遵循国内外权威标准与框架，能系统性地提升大模型安全保障水平：

国际标准与框架：
- NIST AI RMF（人工智能风险管理框架）：提供了管理AI风险的可操作指南，强调衡量和管理AI系统的可信度。
- OWASP AI Security & Privacy Guide：提供了详尽的AI应用安全和隐私检查清单。
国内标准与法规：
- 《人工智能计算平台安全框架》（GB/T 45958-2025）：我国发布的国家标准，旨在建立AI计算平台安全框架，包括安全功能、安全机制、安全模块和服务接口。
- 欧盟《人工智能法》：采用了基于风险的分级监管模式，将AI系统划分为不同风险等级并施以相应监管要求。