
最近由 Anthropic 工程师进行的研究探讨了可识别的活动模式,这些模式似乎催生了一种新兴的人格。这些特征被称为人格向量,有助于解释模型人格在其生命周期中的转变,并为更好地控制这些变化奠定基础。
为了更好地解释他们所说的模型人格,Anthropic 列举了一些案例,例如微软Bing采用了其“Sydney”的另一个自我,ChatGPT开始表现出不平衡、阿谀奉承的行为,以及 xAI Grok 最近将自己定义为“MechaHitler”。更一般地说,人格的转变可能更微妙,可能会导致模型开始编造事实。
为了更好地理解这些行为,Anthropic 的研究专注于提取模型用来表示人格特征的模式。例如,为了研究涉及阿谀奉承的人格向量,研究人员会对比该行为出现时与未出现时模型的激活情况。一旦定位了相关的人格向量,就可以通过将它们注入模型并观察其行为如何变化来测试它们的效果。
当我们用“邪恶”的人格向量引导模型时,我们可以看到,它开始谈论不道德的行为;当我们用“阿谀奉承”引导时,它会讨好用户;当我们用“幻觉”来引导时,它开始编造信息。
研究人员指出,Anthropic 的方法是自动化的,Anthropic 的研究专注于提取模型用来表示人格特征的模式。论文主要关注邪恶、阿谀奉承和幻觉,但同样的方法也可以用来研究礼貌、冷漠、幽默和乐观。
识别人格向量的最终目标是能够监控和控制模型的人格特征及其在生命周期的不同阶段(从训练到部署)的波动。
对于训练,Anthropic 研究人员的期望是找到一种方法来训练模型,使其不会学习到不良行为。他们尝试了两种不同的方法:在训练完成后抑制不受欢迎的人格,以及从一开始就防止其学习这些行为。尽管两种方法都被证明是有效的,但第一种方法会有一个副作用,即使模型会变得不那么智能。第二种方法依赖于一种有趣的“技巧”:
这种方法大致类似于给模型接种疫苗——例如,通过给模型一剂“邪恶”,我们使其对遇到“邪恶”训练数据更具抵抗力。这是因为模型不再需要以有害的方式调整其人格以适应训练数据——我们自己为其提供了这些调整,从而减轻了它这样做的压力。
在部署过程中,模型的人格可能会因为用户指令的副作用或故意的越狱而发生转变。研究人员发现,当系统提示故意引导模型朝向特定行为时,相应的人格就会被激活。
这种监控可以让模型开发人员或用户在模型似乎正在走向危险特征时进行干预。这些信息对用户也有帮助,可以帮助他们了解他们正在与哪种模型交谈。
此外,该技术有助于预测哪些训练数据激活人格向量,从而可能识别出可能诱发不受欢迎特征的数据集甚至单个训练样本。事实上,他们的方法使他们能够捕捉到对人眼来说并不明显的有问题的样本,而 LLM 法官并未能标记这些样本。
Anthropic 对人格向量的研究还有很多内容,这里无法一一涵盖。不要错过完整的论文以获得全部细节。
原文链接:
评论