联邦学习中安全与隐私实施概述

1. 引言

联邦学习(FL)作为新兴的机器学习分支,旨在解决数据隐私保护和分布式数据处理问题,但仍面临对抗攻击威胁。本文献综述利用CiteSpace工具,通过分析相关文献,阐述FL威胁模型、安全与隐私攻击及应对策略,为该领域研究提供全面视角。

2. 基于CiteSpace的文献研究

2.1联邦学习发展的文献数据分析

  • 区域分析:通过CiteSpace软件分析发现,自2016年FL概念出现后,中美两国论文发表数量增长迅速,反映出两国在人工智能领域大数据和深度学习发展趋势下对FL的重视,而其他国家如挪威和丹麦则在特定年份有研究产出。
  • 杰出学者和团队:对SCIE数据库2009 - 2022年相关论文分析表明,随着深度学习发展,FL主题论文引用频率增加,如Yang等和Blanco - Justicia等的论文极具影响力,同时Zhang等研究者在FL数字融合方面贡献显著。
  • 研究热点分析:利用CiteSpace对关键词进行可视化分析,发现FL相关研究集中于数据建模、计算建模和机器学习等核心领域,虽攻击、安全和隐私等关键词研究相对较少,但鉴于FL数据隐私保护初衷,其安全性至关重要。早期研究关注量化编码和防御等,当前则聚焦于隐私保护、恶意用户及数据异质性等问题。

3. 联邦学习背景

3.1联邦学习的定义

联邦学习(FL)基于“联邦”和“分而治之”理念构建机器学习模型。在这一过程中,众多参与者各自拥有不与模型管理者共享的数据,他们期望通过整合彼此数据来联合训练模型。具体而言,每个参与者利用其私有数据在本地训练模型,并将更新发送至模型管理者。模型管理者则通过平均更新的方式来更新全局模型,并且要求全局模型的精度应与集中式训练的模型精度相近,以此实现基于分布式数据集的模型构建,同时确保数据隐私得到有效保护。

3.2机器学习结构的演变与联邦学习的发展

3.2.1集中式机器学习

经典的集中式机器学习依赖于构建云平台,用户将数据上传至云,云服务器利用神经网络对数据进行分析、提取特征并构建模型。构建完成后,用户可通过API使用模型服务,如利用卷积神经网络模型处理传感器信息。然而,这种架构存在严重的隐私风险,因为用户数据往往涉及个人隐私和敏感信息,如个人收入、健康状况等。在数据传输和存储过程中,一旦被恶意窃取或被公司不当利用,将对用户隐私构成巨大威胁。

3.2.2分布式机器学习

随着数据量增长和隐私保护意识增强,分布式机器学习应运而生。该架构将庞大的训练任务分割为多个子任务,分配到各个工作节点上进行处理,主要采用数据并行和模型并行两种方式。数据并行将训练数据分割,各计算节点同步或异步计算训练,服务器聚合梯度;模型并行则是对目标模型进行分割。例如谷歌的Downpour SGD框架,结合了数据并行和模型并行,将训练样本分布在不同机器上。与集中式机器学习相比,分布式机器学习允许设备利用本地数据进行个性化训练,降低了数据泄露风险,但也存在设备与服务器连接不及时、模型局限于本地以及在去中心化环境中调整训练困难等问题。

3.2.3联邦学习

联邦学习的架构根据工程需求不断改进,主要包括以下两种类型:

  • 客户端 - 服务器架构:与集中式机器学习架构类似,此架构需中央服务器聚合用户参数,但用户在本地执行训练任务,有效降低了信息泄露风险。例如互联网金融行业利用该架构,使金融机构在不泄露客户具体信息(如贷款信息)的前提下,发起新用户查询请求,实现了隐私保护、模型有效更新和通信开销降低的目标。
  • 对等网络架构:由于通信技术问题,中央服务器通信稳定性难以保证。对等网络架构允许各方在无需第三方的情况下安全通信,克服了这一难题。与分布式机器学习相比,联邦学习利用中央服务器(或扮演此角色的用户)协调训练过程,避免了因模型训练问题导致的时间损失,确保了训练过程的稳定性和可靠性。

3.3联邦学习的分类

联邦学习根据不同用户间数据特征和样本空间的分布情况,可分为以下三类:

3.3.1水平联邦学习

当不同数据集的用户数据特征重叠较多,但用户本身重叠较少时,采用水平联邦学习。通常是沿用户维度对数据集进行水平切割,使各参与者在本地训练模型,然后将模型参数上传至云端进行集中更新。例如谷歌为安卓手机用户构建的模型,不同地区的安卓手机用户数据特征相似,但用户群体不同,通过这种方式实现了模型的联合训练与更新。

3.3.2垂直联邦学习

若两个数据集的用户重叠较多,但用户特征重叠较少,则适用垂直联邦学习。此时数据集沿特征维度进行垂直分割,利用相同用户但不同特征的数据进行训练。以保险和医院合作为例,二者用户群体可能相同,但医院掌握患者医疗史和健康状况,保险公司则关注保险状态,垂直联邦学习可加密聚合这些不同特征,增强模型能力。

3.3.3联邦迁移学习

当两个数据集的用户和用户特征重叠均较少时,数据不进行分割,而是采用联邦迁移学习,通过转移学习克服数据或标签不足的问题。例如银行和超市在不同地区的合作,可将不同特征空间的特征转移为同一潜在表示,再利用各方收集的标签数据进行训练,从而实现数据的有效利用和模型的构建。

3.4联邦学习架构设计

3.4.1应用和开源框架

联邦学习的首个应用是谷歌安卓键盘项目,旨在通过记录用户日常搜索和打字习惯,在保护隐私的前提下提供更安全的服务。目前,为便于在分散数据上进行联邦学习实验,多种开源框架可供选择,如TensorFlow Federated、Federated AI Technology Enabler、Pysyft、PFL、CLARA Training Framework和Flower等。其中,Flower框架实现了基于SecAgg(+)协议的安全聚合方法,有效防止了从本地模型推断隐私信息的行为。在研究领域,基于联邦学习框架的模型广泛应用于图像分类和语言建模等任务,常用的数据集包括MNIST、SVHN、STL10等,这些数据集在数据规模、类别数量和图像尺寸等方面各有特点,为联邦学习研究提供了多样化的实验数据。

3.4.2联邦学习模型构建

构建联邦学习模型时,需依次完成以下步骤:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值