阿里达摩院最新框架FederatedScope来了!让联邦进修从可用到好用

刚刚,阿里巴巴达摩院发布新型联邦进修框架 FederatedScope,该框架反对大规模、高效率的联邦进修异步训练,能兼容分歧设备运行环境,且供应丰富功能模块,大幅下降了隐衷守护盘算技术开发与部署难度

刚刚,阿里巴巴达摩院发布新型联邦进修框架 FederatedScope,该框架反对大规模、高效率的联邦进修异步训练,能兼容分歧设备运行环境,且供应丰富功能模块,大幅下降了隐衷守护盘算技术开发与部署难度。该框架现已面向全球开发者开源。

图片

隐衷守护是数字经济的安全底座,如何在保障用户数据隐衷的同时供应高质量连通服务,成为数字经济时代的重要技术课题。为破解隐衷守护与数据使用的两难,以 “数据不动模型动” 为理念的联邦进修框架应运而生,并成为隐衷守护盘算近年最主流的解决方案之一。具体而言,联邦进修框架成功实现了“数据可用不可见”。用户自身的数据从始至终都停留在用户自己的手机或汽车等终端内,不会“出域”;同时,训练机器进修模型需要的信息,譬如梯度,会以分歧的方式被守护(加密、加噪声或拆分),然后在云端的服务器进行聚拢,从而进行模型训练;此后云端再将更新的模型推送给手机端或者车端。通过这样的交互和迭代过程,服务供应商既可以训练高性能的模型为用户供应服务,同时也能守护好用户的数据隐衷。

目前开源的联邦进修框架包括TensorFlow Federated(TFF)、FATE等。这些框架供应了联邦进修相关基础组件及实现方式,如联邦聚拢、差分隐衷、同态加密等,为联邦进修相关社区研究和工业使用都供应了一定反对。

然而,现实生活中日益多样化的使用场景,以及联邦进修任务中存在的异构特点(如数据异构,系统资源异构,举动异构等),给联邦进修框架带来了新的挑战。目前已有的联邦进修框架难以灵活高效地满足现实中越来越复杂的盘算需要,需从注重“可用”向注重“好用”转变。首先,联邦进修参与方之间传递的信息形式会更加丰富,不再局限于模型参数或者梯度这一类的同质信息。例如在图数据上的联邦进修,参与方之间还会传递节点的嵌入式表示等信息;在垂直联邦进修的场景下,参与方之间还会传递公钥和一些加密过的中间结果信息。丰富的信息种类要求联邦进修框架能灵活反对分歧范例的信息传递。其次,联邦进修参与方的举动种类更加多变,不再拘泥于传统的 “服务器端负责聚拢,用户端负责本地训练” 的模式。例如在跨设备的联邦进修场景中,往往需要对服务器端的模型做压缩解决,来满足终端设备的运行要求;而在终端设备上,往往会对收到的模型进行微调来取得更好的效果。多样化的参与方的举动要求联邦进修框架可以灵活地反对多种自定义举动。同时,联邦进修参与方的响应速度和可靠性参差不齐,采用传统的同步训练的方式容易造成训练效率差,系统利用率低等问题。这要求联邦进修框架可以允许开发者根据使用场景采用分歧的异步训练策略,在保证训练效果的同时提升训练的效率。再者,现实使用中联邦进修参与方可能搭载分歧的模型训练环境,例如有些设备后端环境使用的是 PyTorch,而另外一些则使用 TensorFlow。这要求联邦进修框架需要有更好的兼容性,能反对跨平台组建联邦进修,而避免要求使用者费时费力地对所有参与方进行环境的适配。最后,联邦进修框架应该为单机仿真和分布式部署供应统一的算法描述和接口,以满足研究者和开发人员分歧的使用需求,并下降从仿真到部署的迁移难度,缩小联邦进修从学术研究到工业使用的鸿沟。为解决上述挑战,达摩院智能盘算实验室研发了联邦进修框架 FederatedScope,该框架于 5 月 5 日正式对外发布并开源。FederatedScope 采用事件驱动的编程范式,用于反对现实场景中联邦进修使用的异步训练,并借鉴分布式机器进修的相关研究成果,集成了异步训练策略来提升训练效率。具体而言,FederatedScope 将联邦进修看成是参与方之间收发音信的过程,通过定义音信范例以及解决音信的举动来描述联邦进修过程。FederatedScope 通过把联邦过程(例如协调分歧的参与方)和模型训练举动(例如训练数据采样、优化等)解耦开,使开发者可以专注于定制参与方解决收到音信的举动,而不需要从顺序执行的角度考虑如何串联分歧参与方。例如在经典的 FedAvg 算法实现中,用户只需定义聚拢端收到用户端发送的模型参数信息后的聚拢举动,以及用户端收到聚拢端广播新一轮模型参数之后的本地训练举动。对于包含异质音信传递和丰富音信解决举动的联邦进修任务,FederatedScope 反对用户通过添加额外的音信范例和解决举动进行定制化。同时,FederatedScope 内置了大量的音信范例和相应的音信解决举动,可以很好地服务分歧场景下的联邦任务,很大程度地下降了开发者和使用者的上手门槛。同时,达摩院团队对 FederatedScope 训练模块进行抽象,使其不依赖特定的深度进修后端,能兼容 PyTorch、Tensorflow 等分歧设备运行环境,大幅下降了联邦进修在科研与实际使用中的开发难度和成本。

图片

图 1. 经典联邦进修

图片

图 2. 事件驱动为进一步适应分歧的使用场景,FederatedScope 还集成了多种功能模块,包括自动调参、隐衷守护、性能监控、端模型个性化。FederatedScope 反对开发者通过配置文件便捷地调用集成模块,也允许通过注册的方式为这些模块添加新的算法实现并调用。具体而言:

(1)自动调参能大幅下降搜索最优超参的时间和资源消耗。FederatedScope 供应了最新的联邦进修自动调参算法方便开发者直接使用。同时,自动调参模块也抽象了自动调参算法框架,从而方便研究人员开发新的调参算法。

(2)隐衷守护是所有场景的通用需求,FederatedScope 的隐衷守护模块供应了主流的隐衷守护机制,包括多方安全盘算、同态加密和差分隐衷。除此以外,隐衷守护模块额外供应了主流的隐衷评估算法,方便开发者验证隐衷守护的强度。

(3)性能监控可以帮助开发者随时了解训练进展,及时发现训练异常。FederatedScope 的性能模块能以友好的界面展示训练过程的多种中间信息,包括每一个用户端的训练结果和聚拢端的评价等。

(4)由于联邦进修参与方的数据分布和设备性能可能存在较大的差异性,端模型个性化是使用场景中的强需求。FederatedScope 的端模型个性化模块实现了差异化训练配置、定制训练模块、个性化参与方的训练举动、维护全局和个性化的本地模型等功能,从而达成端云协同。同时端模型个性化模块供应了丰富的个性化算法方便开发者调用。

相比传统的联邦进修框架,FederatedScope 易用性尤为突出,以下几个例子可具体说明:

(1)对于初次接触联邦进修的使用者来说,FederatedScope 供应了详尽的教程、文档和运行脚本,可以引导用户快速入门上手联邦进修。FederatedScope 也包含了常用的模型架构实现,对一些基准数据集也做了统一的预解决和封装,以帮助用户便捷地开展实验。

(2)对于希望将经典联邦进修使用在分歧下游任务的开发者,如使用分歧的数据和模型架构,FederatedScope 允许通过注册的方式使用准备好的新数据集和模型架构,而不需要修改其他的细节。另外,FederatedScope 也反对根据任务范例定制分歧的性能监控和评价指标。

(3)对于希望深入研究和开发联邦进修算法的用户,需要足够的自由度在联邦进修中添加异质信息交换和多样的解决举动,在FederatedScope中只需定义音信的范例和相应的解决函数。相比现有的联邦进修框架,FederatedScope的优点在于不需要开发者将联邦进修的过程用顺序执行的视角来完整描述,而只需采用事件驱动的方式增加新的音信范例和音信解决举动,系统协助完成自动调参和高效异步训练,下降了所需的开发量以及复杂度。

图片

总体而言,通过采用事件驱动的编程范式,将联邦进修抽象成异构音信的传输和解决,同时集成丰富多样的算法策略和功能模块,FederatedScope 可以很好的应对联邦进修使用中存在的异构特点,灵活地反对分歧联邦进修使用场景的多样化需求,且易于使用和二次开发。与现有的联邦进修框架相比,FederatedScope 大幅下降了开发者使用的难度。 达摩院智能盘算实验室隐衷守护盘算团队负责人丁博麟表示,“数据已成为重要的生产要素,而隐衷守护盘算是保障这一要素发挥作用的关键技术。通过开源最新联邦进修框架,我们希望促进隐衷守护盘算在研究和生产中的广泛使用,让医药研发、政务互通、人机交互等数据密集领域更安全、更顺畅地发展。”Gartner 相关报告显示,到 2025 年之前,约 60% 的大型企业预计将使用至少一种隐衷守护盘算技术。达摩院 2022 十大科技趋势同样将隐衷守护盘算列为重要趋势,认为该技术将从覆盖少量数据的场景走向全域守护,从而激发数字时代的新生产力。更多信息可访问 FederatedScope 介绍网站:https://federatedscope.io/;开源地址:https://github.com/alibaba/FederatedScope

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/33482

(0)
上一篇 2022年5月5日 下午3:10
下一篇 2022年5月9日 上午8:41

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注