点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
个人信息
作者:卞天,达摩院实习生
项目简介
近年来,回路发现(Circuit Discovery)作为解释语言模型特定决策的研究方向备受业界关注,它旨在从语言模型中找到负责解决特定任务的计算子图。然而,现有的大多数研究忽视了这些回路的整体性,并且需要为不同任务设计特定的损害输入,不仅不准确且效率低下。
论文链接:https://openreview.net/pdf?id=APElRzkmGY
现存问题及挑战
当前,语言模型的回路发现面临以下几个主要挑战:
整体性缺失:大多数现有方法将回路组件视为独立实体,忽略了它们在模型中的整体计算流。这种处理方式破坏了模型的整体性,难以准确反映回路的真实行为。
任务特定设计:现有方法通常需要为不同任务设计特定的损害输入(如activation patching方法)。这种方法不仅繁琐,而且在面对多任务时效率低下,难以扩展。
计算复杂度:随着模型规模的增大,现有方法在回路发现中的计算成本显著增加,导致其在大型语言模型上的应用受到限制。
方法概述
信息瓶颈原理
信息瓶颈(Information Bottleneck, IB)旨在从输入数据中提取出与目标任务相关的最小信息表示。具体而言,IB通过最大化输入数据与目标任务之间的互信息,同时最小化输入数据与表示之间的互信息,实现信息的有效压缩与提取。
IBCircuit框架
IBCircuit利用信息瓶颈原理,通过以下步骤实现回路发现:
噪声注入与权重学习:在模型的各个组件(如注意力头和MLP)中引入可控的高斯噪声,并通过学习IB权重来调控信息流。IB权重决定了每个组件的信息保留程度,从而识别出关键组件。
优化目标:IBCircuit的目标函数包含两部分。一是最大化回路输出与目标任务输出之间的互信息,确保回路对任务的高相关性;二是最小化回路与模型整体之间的互信息,确保回路的简洁性和最小冗余。
回路形成:通过离散化学习到的IB权重,选择那些信息保留程度较高的组件,最终形成一个信奉最小冗余且高度相关的回路。
实验与结果
实验设置
我们在两个任务上评估了IBCircuit的表现:
间接宾语识别(IOI):该任务要求模型识别句子中的间接宾语,例如在句子“John 给了 Mary 一个苹果”中,识别“Mary”作为间接宾语。
大于任务(GreaterThan):该任务要求模型在给定的年份数据中预测一个大于特定值的年份,例如在“战争持续了从1741年到17年”中,预测后一个年份大于41。
实验结果
基于先前工作的验证:如下图所示,IBCircuit在IOI任务中显著优于其他基线方法,尤其是在回路识别的准确性和简洁性方面。然而,在GreaterThan任务中,IBCircuit在节点数量较多时表现略逊于ACDC,可能由于任务输出的多样性增加了学习难度。
消融实验:如上图(a)所示,结合KL损失和互信息损失,IBCircuit在保持任务表现的同时,有效减少了回路中的冗余信息。缺少任一部分的模型(IBCircuit-woMI和IBCircuit-onlyMI)在性能上均有所下降,验证了两者的协同重要性。
可信度与简洁性:IBCircuit在保持高任务表现的同时,能够识别出更少的关键组件,显示出其在可信度和简洁性方面的优势。例如在IOI任务上,IBCircuit在较低组件数量时仍能保持较高的Logit差异和较低的KL Div,证明了其优秀的回路识别能力。
现有工作与未来工作的关联
IBCircuit 在回路发现领域的研究中,填补了现有方法在整体性和任务无关性上的不足。同时,IBCircuit 的成功应用也为未来的研究指明了方向:
更复杂任务的回路发现:未来可以尝试将IBCircuit应用于更多复杂的自然语言处理任务,进一步验证其通用性和有效性。
跨模型的回路对比:通过比较不同模型中的回路结构,IBCircuit 可以帮助我们更好地理解不同模型在处理相同任务时的内部机制差异。
实时回路调控:结合在线学习和实时调控技术,IBCircuit 有望实现对模型回路的动态调整,提升模型在多变任务环境下的适应能力。
结论
在复杂的语言模型中,理解和识别关键计算子图是实现模型透明化和可解释化的重要一步。本文提出的IBCircuit方法,基于信息瓶颈原理,提供了一种高效、整体且通用的回路发现框架。在IOI和GreaterThan任务上的实验结果表明,IBCircuit在识别高效且可靠的回路方面,显著优于现有方法。未来,我们期待IBCircuit能在更多任务和更大规模的模型中得到应用,为语言模型的解释性研究开辟新的路径。
近期精彩活动
ACL 2025 开启招募|欢迎报名成为讲者,团队专场、方向出品人等多种形式约你来见
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言