许多人认为可解释性是LLM的下一个前沿领域之一。这些新一代前沿模型通常被视为不透明的系统:数据输入,响应出现,而具体响应背后的原因仍然隐藏。这种模糊性使这些模型的可信度变得复杂,引发了人们对它们可能产生有害、有偏见或不真实输出的担忧。如果内部运作是一个谜,人们如何能对它们的安全性和可靠性充满信心?
深入研究模型的内部状态并不一定能澄清问题。内部状态本质上是数字(神经元激活)的集合,缺乏明确的含义。通过与 Claude 等模型的交互,很明显它们理解并利用了各种概念,但这些概念无法通过检查神经元直接辨别。每个概念跨越多个神经元,每个神经元都对多个概念做出贡献。
去年,Anthropic 在可解释性领域发表了一些非常相关的研究,重点是将神经元激活模式(称为特征)与人类可以理解的概念相匹配。他们使用来自经典机器学习的“字典学习”,确定了不同情境中重复出现的神经元激活模式。因此,模型的内部状态可以用几个活动特征而不是许多活动神经元来表示。正如字典中的单词由字母组成,句子由单词组成一样,AI 特征是通过组合神经元而形成的,而内部状态则是通过组合特征而形成的。
Anthropic 的工作基于相对较小的模型。下一个明显的挑战是确定这项工作是否适用于大型前沿模型。在一篇新论文中,Anthropic 使用字典学习从其 Claude Sonnet 模型中提取可解释的特征。该技术的核心基于熟悉的架构。
稀疏自编码器
Anthropic 旨在使用稀疏自动编码器 (SAE) 将模型激活(特别是在 Claude 3 Sonnet 中)分解为更易于解释的部分。SAE 属于一类称为“稀疏字典学习”的算法,该算法将数据分解为稀疏活动组件的加权和。
SAE 包含两层。第一层(编