没有合适的资源?快使用搜索试试~ 我知道了~
联邦学习算法综述
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉

温馨提示
近年来,联邦学习作为解决数据孤岛问题的技术被广泛关注,已经开始被应用于金融、医疗健康以及智慧城市等领域。从3个层面系统阐述联邦学习算法。首先通过联邦学习的定义、架构、分类以及与传统分布式学习的对比来阐述联邦学习的概念;然后基于机器学习和深度学习对目前各类联邦学习算法进行分类比较和深入分析;最后分别从通信成本、客户端选择、聚合方式优化的角度对联邦学习优化算法进行分类,总结了联邦学习的研究现状,并提出了联邦学习面临的通信、系统异构、数据异构三大难题和解决方案,以及对未来的期望。
资源推荐
资源详情
资源评论















BIG DATA RESEARCH 大数据
64
联邦学习算法综述
王健宗
1
,孔 令 炜
1
,黄 章 成
1
,陈 霖 捷
1
,刘 懿
1
,何 安 珣
1
,肖 京
2
1. 平安科技(深圳)有限公司,广东 深圳 518063
2. 中国平安保险(集团)股份有限公司,广东 深圳 518031
摘要
近年来,联邦学习作为解决数据孤岛问题的技术被广泛关注,已经开始被应用于金融、医疗健康以
及智慧城市等领域。从3个层面系统阐述联邦学习算法。首先通过联邦学习的定义、架构、分类以及
与传统分布式学习的对比来阐述联邦学习的概念;然后基于机器学习和深度学习对目前各类联邦学
习算法进行分类比较和深入分析;最后分别从通信成本、客户端选择、聚合方式优化的角度对联邦
学习优化算法进行分类,总结了联邦学习的研究现状,并提出了联邦学习面临的通信、系统异构、
数据异构三大难题和解决方案,以及对未来的期望。
关键词
联邦学习;算法优化;大数据;数据隐私
中图分类号:TP311 文献标识码:A
doi: 10.11959/j.issn.2096-0271.2020055
Research review of federated learning algorithms
Abstract
In recent years, federated learning has been proposed and received widespread attention to overcome data isolated island
challenge. Federated learning related researches were adopted in areas such as financial field, healthcare domain and smart
city related application. Federated learning concept was introduced into three different layers. The first layer introduced
the definition, architecture, classification of federated learning and compared the federated learning with traditional
distributed learning. The second layer presented comparison and analysis of federated learning algorithms from machine
learning and deep learning aspects. The third layer separated federated learning optimization algorithms into three aspects
to optimize federated learning algorithm through reducing communication cost, selecting proper clients and different
aggregation method. Finally, the current research status and three main challenges on communication, heterogeneity of
system and data to be solved were concluded, and the future prospects in federated learning domain were proposed.
Key words
federated learning, algorithm optimization, big data, data privacy
WANG Jianzong
1
, KONG Lingwei
1
, HUANG Zhangcheng
1
, CHEN Linjie
1
, LIU Yi
1
,
HE Anxun
1
, XIAO Jing
2
1. Ping An Technology (Shenzhen) Co., Ltd., Shenzhen 518063, China
2. Ping An Insurance (Group) Company of China, Ltd., Shenzhen 518031, China
2020055-1

STUDY 研究 65
1 引言
随着数字化技术进入高速发展期,大数
据和人工智能等技术迎 来爆发式发展
[1-2]
,
这一方面为传统业态带来了升级变革的新
机遇
[3-5]
,另一方面不可避免地给数据和
网络安全带来了全新的挑战,而数据孤岛
问题
[6-7]
是 关 键 挑 战 之 一 。纵 向 来 看 ,行 业
顶尖的巨头公司垄断了大量的数据信息,
小公司往往很难得到这些数据,导致企业
间 的 层 级 和 差 距 不 断 拉 大 ;横 向 来 看 ,同
一层级不同行业的公司,由于系统和业务
的闭塞性与阻隔性,很难实现数据信息
的 交 流 与 整 合 ,联 合 建 模 需 要 跨 越 重 重
壁垒。
针对上述人工智能行业目前面临的痛
点,联邦学习给出了答案。联邦学习是由谷
歌研究院在2016年率先提出的概念
[8-10]
。
该技术可在数据不共享的情况下完成联合
建 模 。具 体 来 讲 ,各 个 数 据 拥 有 者 ( 个 人 /
企业/机构)的自有数据不会离开本地,通
过联邦系统中加密机制下的参数交换方式
(即在不违反数据隐私法规的情况下)联
合建立一个全局的共享模型,建好的模型
在各自的区域只为本地的目标服务
[11]
。尽
管联邦学习
[12-14]
和分布式机器学习
[15-19 ]
有
部分相似的地方,但是在应用领域、系统
设计、优化算法方面,联邦学习有自己的特
征 。在 数 据 量 庞 大 、所 需 计 算 资 源 较 高 时 ,
分 布 式 机 器 学 习( 如 参 数 服 务 器)有 明 显
的优势,它将独立同分布(independently
identically distribution,IID)的数据或
模 型 参 数 存 储 在 各 个 分 布 式 节 点 上 ,中 心
服务器调动数据和计算资源,联合训练模
型。因客户端的地理、时间等分布差异,
联邦学习经常要处理非独立同分布(non-
IID)的数据。本文结合联邦学习的现状,
对联邦学习系统进行分层,按模块整理联
邦学习目前取得的相关成果。
联邦学习算法结构如
图1所示。
为 了 整 合 多 个 来 源 的 数 据 ,当 前 比 较 普 遍
的做法是通过数据预处理ETL(extract-
t r a n s f o r m - l o a d)工 具 将 不 同 源 的 数 据 移
动到关系数据库中,将具有庞大计算量的
任 务 部 署 到 多 台 机 器 上 ,以 提 升 计 算 效 率 ,
减少任务耗能。
图 1 联邦学习算法结构
2020055-2

BIG DATA RESEARCH 大数据
66
2 联邦学习概述
2.1 联邦学习的定义
2 0 1 6 年 ,谷 歌 研 究 院 在 解 决 面 向 用
户个体的键盘输入法优化问题时,提出
了联邦学习这一全新的人工智能解决
方 案 。联 邦 学 习 面 向 的 场 景 是 分 散 式
多用户
1
{, , }
N
FF
,每个用户客户端拥有
当前用户的数据集
1
{,, }
N
DD
。传 统 的
深 度 学 习 将 这 些 数 据 收 集 在 一 起 ,得 到
汇总数据集
1
,,
N
DU U=
1
,,
N
DU U=
1
,,
N
DU U=
,训 练 得 到 模
型
SUM
M
。联邦学习方法则是由参与的用
户共同训练一个模型
FED
M
,同 时 用 户 数
据 D
i
保 留 在 本 地 ,不 对 外 传 输 。如 果 存
在一个非负实数δ ,使 得
FED
M
的模型精
度V
FED
与M
SUM
的模型精度V
SUM
满足如下
不等式:
FED SUM
VV
δ
−<
(1)
则称该联邦学习算法达到δ-精度损失
[4]
。
联邦学习允许训练模型存在一定程度的性
能偏差,但是为所有的参与方提供了数据
的安全性和隐私保护。联邦学习常用的框
架有两种,一种是客户端-服务器架构
[8]
,
另一种是对等网络架构
[20]
。在 客 户 端 - 服
务器架构中,联邦学习的训练方式是让各
个数据持有方根据自己的条件和规则在本
地训练模型,然后将脱敏参数汇总到中央
服务器进行计算,之后再下发回各个数据
持有方更新自己本地的模型,直至全局模
型稳健为止。在对等网络架构中进行联邦
学习训练时,参与方之间可以直接通信,
不 需 要 借 助 第 三 方 ,安 全 性 得 到 了 进 一 步
提高,但是需要更多的计算操作进行加密
和解密
[21-24]
。目 前 的 研 究 更 多 的 是 基 于 第
三方服务器的框架。因此本文着重介绍客
户端-服务器架构的联邦学习流程。
2. 2 客户端-服务器架构的联邦学习流程
在 物 理 层 面 上 ,联 邦 学 习 系 统 一 般 由
数据持有方和中心服务器组成。各数据持
有方的本地数据的数量或特征数可能并不
足以支持一次成功的模型训练,因此需要
其他数据持有方的支持。而联邦学习中心
服务器的工作类似于分布式机器学习的服
务器,其收集各数据持有方的梯度,并在服
务器内进行聚合操作后返回新的梯度
[25]
。
在一次联邦学习的合作建模过程中,数据持
有方对本地数据的训练仅发生在本地,以保
护 数 据 隐 私 ,迭 代 产 生 的 梯 度 在 脱 敏 后 被 作
为 交 互 信 息 ,代 替 本 地 数 据 上 传 给 第 三 方 受
信任的服务器,等待服务器返回聚合后的
参 数 ,对 模 型 进 行 更 新
[8]
。图2展示了客户
端-服务器架构的联邦学习流程。
步骤1:系统初始化。首先由中心服务
器发送建模任务,寻求参与客户端。客户端
数 据 持 有 方 根 据 自 身 需 求 ,提 出 联 合 建 模
设想。在与其他合作数据持有方达成协议
后,联合建模设想被确立,各数据持有方
进 入 联 合 建 模 过 程 。由 中 心 服 务 器 向 各 数
据持有方发布初始参数。
步 骤 2 :局 部 计 算 。联 合 建 模 任 务 开 启
并初始化系统参数后,各数据持有方将被
要求首先在本地根据己方数据进行局部计
算,计算完成后,将本地局部计算所得梯
度脱敏后进行上传,以用于全局模型的一
次更新。
步 骤 3 :中 心 聚 合 。在 收 到 来 自 多 个 数
据持有方的计算结果后,中心服务器对这
些计算值进行聚合操作,在聚合的过程中
需 要 同 时 考 虑 效 率 、安 全 、隐 私 等 多 方 面 的
问题。比如,有时因为系统的异构性,中心
服务器可能不会等待所有数据持有方的上
传,而是选择一个合适的数据持有方子集
作 为 收 集 目 标 ,或 者 为 了 安 全 地 对 参 数 进
2020055-3
剩余18页未读,继续阅读

weixin_38672962
- 粉丝: 4
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 基于分布式多智能体的平均一致性减载算法:全局信息决策与故障应对协调策略
- 基于毫米波雷达目标检测数据计算交通常见指标
- 基于DBSCAN密度聚类的风电与电负荷场景生成及削减优化策略的MATLAB实现 - 密度聚类
- 基于DBSCAN密度聚类的风电-负荷场景生成与削减模型及其MATLAB实现
- 基于Comsol技术铌酸锂BIC倍频研究与应用。
- 水力压裂与断裂力学研究:从THM程序到Python实现的全面探索
- yolov10 目标检测部署版本,便于移植不同平台(onnx、tensorRT、rknn、Horizon),全网部署最简单、运行速度最快的部署方式(全网首发)
- 基于粒子群算法的冷热电三联供系统优化调度:微型燃气轮机能量管理成本分析与比较
- 电力系统优化:基于关键场景辨识的两阶段微网鲁棒调度策略应对光伏不确定性 · 微电网调度
- 基于Matlab和Yalmip编程的电动汽车充电站优化配置及路电网协同研究——以31节点系统为例
- 华为云OBS(对象存储)错误码查询工具
- 三相PWM整流器的双闭环控制与C语言实现:PI控制及SVPWM模块详解
- 电-气综合能源系统短期可靠性评估技术及其时序蒙特卡罗模拟应用
- Oracle数据库日常维护手册doc
- 基于一致性算法的分布式能源去中心化交易模型及其隐私保护与激励相容策略 - 隐私保护
- yolov10 目标检测部署版本,便于移植不同平台(onnx、tensorRT、rknn、Horizon),全网部署最简单、运行速度最快的部署方式(全网首发)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

- 1
- 2
前往页