Orca: FSS-based Secure Training and Inference with GPUs

原创

于 2024-05-23 14:03:29 发布 · 1.3k 阅读

·

15

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#网络安全 #安全架构 #可信计算技术 #神经网络

目录

1.Abstract
2.Accelerating FSS on a GPU
3.Evaluation

1.Abstract

端到端系统ORCA：

加速基于 FSS 的使用 GPU 的 2PC 协议的计算。
新的基于 FSS 的 2PC 协议
提供了第一个用于随机截断的安全协议，并在此基础上提供了对具有端到端安全性的训练的首次评估。
ORCA 在 CIFAR-10 上具有 4% 更高的准确性，98 倍更少的通信，并且速度提高了 26 倍。
对于安全的 ImageNet 推断，ORCA 实现了 VGG-16 和 ResNet-50 的亚秒延迟，并且比最先进技术快 8-103 倍。

2.Accelerating FSS on a GPU

2.1 Accelerating FSS-based compute on GPU

2.1.1 Faster AES computation (AES)

在这里插入图片描述

AES 加密： AES 需要反复查找预先计算的查找表（lookup table）
常量缓存（constant cache）： GPU 中的常量缓存用于存储只读数据，在每个流处理器（SM）中都有一份副本。访问常量缓存通常很快，适合并行计算。
访问模式要求： 常量缓存的性能依赖于 GPU 线程的访问模式。如果所有线程在同一时间访问同一个地址，性能非常高。如果不同线程访问不同地址，访问会被序列化，导致性能下降，甚至导致计算停滞（stall）。

问题分析：

在 AES 加密过程中，不同的 GPU 线程会访问查找表中的不同索引。
由于查找表存储在常量缓存中，当不同线程访问不同地址时，这些访问会被序列化。
这种序列化会导致访问延迟（stall），从而影响整体性能。

解决方案:

1.查找表复制策略：

每个 warp 复制查找表： 每个 SM（流处理器）中的 warp（通常为 32 个线程）都拥有一份查找表的副本。这意味着在每个

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。