本文是LLM系列文章,针对《SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models》的翻译。
摘要
随着云平台上托管的大型语言模型越来越多地用于提供推理服务,隐私问题也在升级,尤其是涉及投资计划和银行账户详细信息等敏感数据。安全多方计算(SMPC)是一种很有前途的保护推理数据和模型参数隐私的解决方案。然而,SMPC在大型语言模型的隐私保护推理(PPI)中的应用,特别是那些基于Transformer架构的模型,往往会导致性能显著下降。这在很大程度上是由于Transformer架构中的大量非线性操作,这些操作不太适合SMPC,并且难以有效规避或优化。为了解决这一问题,我们引入了一种名为SecFormer的高级优化框架,以实现Transformer模型的快速准确PPI。通过实现模型设计优化,我们成功地消除了PPI中的高成本指数运算和最大运算,而不牺牲模型性能。此外,我们还开发了一套高效的SMPC协议,利用分段多项式、傅立叶级数和Goldschmidt方法来处理PPI中的其他复杂非线性函数,如GeLU、LayerNorm和Softmax。我们的大量实验表明,SecFormer的性能优于MPCFormer,提高了5.6%BERTBASE和BERTLARGE分别为24.