一、英伟达Nemo Guardrails套件为大语言模型添加护栏规则的方式
英伟达的Nemo Guardrails套件为大语言模型(LLM)添加一系列护栏规则,以增强模型的安全性和可靠性。该套件的构建基于英伟达的Aegis内容安全数据集训练而成,该数据集包含3.5万个标注样本,并已在HuggingFace上公开 。
(一)开发者自定义规则 Nemo Guardrails套件允许软件开发者依据自身需求创建特定规则。开发者使用Colang编程语言为AI模型编写自定义规则,Colang是一种特定领域的语言,专门用于描述对话流。虽然功能强大,但使用方式相对简便,类似于使用英语编写规则,这使开发者不需要成为机器学习专家或数据科学家,只需几行代码就能够迅速构建新规则。这些自定义规则可以围绕多个方面展开,比如对话的主题、模型输出内容的安全性以及代码和模型交互的安全性等 。
(二)构建不同类型的护栏
- 主题护栏 帮助确保人工智能的回应始终与特定主题相关。例如,在构建用于产品推广的客服聊天机器人时,开发者可以使用主题护栏确保机器人的回应围绕自己的产品,不会被用户引导到谈论竞争对手产品之类的无关话题上。如果用户提出涉及竞争对手产品或无关话题的问题,机器人可以利用Nemo Guardrails将对话引导回与自家产品相关的话题上 。
- 功能安全护栏 这一方面旨在保证模型回应的准确性,并经过事实检验。在如医疗、汽车、制造业等领域的人工智能应用场景中,功能安全护栏可确保AI模型不会因错误或不准确的数据而提供错误的信息。例如,在一个关于汽车制造的人工智能辅助系统中,功能安全护栏可以防止模型按照错误的数据提供汽车零部件的安装指南之类的错误信息。
- 信息安全护栏 主要用来保护敏感信息的安全。例如在企业内部使用的人力资源聊天机器人场景中,信息安全护栏能够防止机器人在处理企业内部人力资源问题时,回应关于企业财务业绩或访问员工私人数据的问题,从而保障企业的数据安全和信息安全 。
(三)多种功能作用
- 预防不良内容输出 在AI模型生成内容之前就进行审查和干预,从而避免模型产生不良结果或不良提示。可以阻止AI模型谈论不适当的话题、阻止有毒内容(如包含歧视性、攻击性的话语等)的生成,也能避免AI模型执行计算机上的有害命令等,确保AI模型输出的言论符合道德和安全规范 。
- 控制输出方式 可以对AI模型输出的具体方式进行控制。例如,设定模型不谈论政治话题,或者以特定的风格(如简洁明了的语言风格)回答用户请求、遵循预定义的对话路径回应,以及从对话中提取结构化数据等,使得模型输出符合开发者的预期以及具体的应用场景要求 。
二、防止用户提示词越狱的具体方法
随着大语言模型应用的广泛,提示词越狱(prompt jailbreaks)问题也引发关注,这一现象指的是用户通过构造特殊的提示词绕过模型的安全和审查功能,引导模型生成本不应输出的内容,如违反规则或包含有害信息等的内容 。Nemo Guardrails套件运用多种策略防止这种越狱情况。
(一)基于确定样本规则的预审查
- 数据集确立规则