译者 | 朱先忠
审校 | 重楼
传统云计算依赖集中式数据训练模型,但边缘计算的普及催生了新范式——去中心化机器学习。其核心代表——联邦学习正在颠覆传统流程。本文将对联邦学习概念及其三个关键技术展开讨论。
简介——打破云障碍
多年来,云计算一直是机器学习的主导范式。海量数据图表被上传到中心化服务器,经过超强GPU的处理,最终转化为能够提供建议、预测和推理的模型。
但是,如果不是“只有一条路”呢?
我们生活在一个数十亿设备(智能手机、智能传感器等)可以在本地生成和处理数据的世界。这被称为边缘计算或普适计算,它为引入一个强大的新范式——去中心化机器学习(ML)——提供了绝佳的机会。在这种范式中,多个模型可以在分布式网络和计算模式上协同训练,而无需将数据聚合到一个站点。
联邦学习是本地协作学习这一新领域的前沿。这种学习过程允许多个客户端(手机、医院、汽车等)使用同一模型进行训练,同时保持数据本地化。由于隐私法规、带宽限制和安全问题导致无法访问集中式训练,这种方法非常有必要。
本文将探讨不断发展的去中心化人工智能领域:联邦学习的工作原理、其前景和问题所在,以及为什么它可能预示着人工智能中道德和可扩展隐私流程的新兴未来。
什么是联邦学习?为什么它很重要?
联邦学习颠覆了传统的机器学习工作流程。我们不再将数据发送到服务器,而是将模型发送到数据。
每个客户端设备都会获得一份模型副本,使用该模型对客户端数据进行训练,并将模型更新提交回服务器(通常是全局更新的梯度或模型权重变化)。服务器收集并汇总这些更新,最常见的方式是使用联邦平均或类似的流程,然后将改进后的模型版本分发给所有参与者。
联邦学习架构有很多优点:
- 隐私:原始数据永远不会离开设备,最大限度地减少泄露或泄露的风险。
- 延迟:设备上的训练和推理自然能够实现更快的离线决策。
- 带宽:仅传输模型的微小更新,而不是数GB的原始数据!
- 监管:在医疗保健或金融等存在数据驻留法律的州,集中存储是不切实际的,但点对点学习仍然可以安全地进行。联邦学习最初在Google的Gboard(适用于Android设备的预测键盘)上进行试点,后来开始应用于从预测键盘到医学研究再到自动驾驶汽车车队等各个领域。
不仅仅是服务器:去中心化联邦学习
虽然联邦学习在消除数据中央流风险方面做得很好,但联邦学习仍然几乎总是依赖中央服务器来协调训练,从而引入单点故障和控制,掩盖了分散框架的好处。
现在,通过点对点(P2P)网络、区块链共识机制和去中心化聚合协议设计,研究人员开始设计无需中央协调器的系统!每个节点都可以平等地参与模型更新,共识算法有助于确保完整性和公平性。
OpenMined和Flower是尝试去中心化联邦学习的开源平台。
“群体学习”结合区块链和边缘设备,在无需集中治理的情况下,跨医院同步医疗模型。
差异隐私、安全多方计算(SMPC)和同态加密位于顶层,增加了安全性。
这一切会带来什么结果?未来,模型的构建将更加民主,不再有任何一个组织能够控制数据流或拥有模型。
挑战:并非全部同步
尽管前景光明,但去中心化机器学习也面临着技术和后勤挑战,因此我们必须意识到其中涉及的复杂性。
- 模型漂移:如果没有集中控制,在不同地方训练的模型可能会分离,从而降低泛化能力。
- 计算限制:边缘设备面临有限的内存、功率和处理限制。
- 通信开销:虽然简单,但即使是小的模型更新也会在规模上变得昂贵,尤其是在不可靠的网络上。
- 安全风险:如果没有实施强加密和验证,恶意节点可能会被用来毒害更新。还有一个生成信任问题。在一个完全开放的系统中,如何知道哪些更新是诚实的?基于区块链的审计和声誉系统的实验正在探索中,但尚未得到广泛部署。
用例:当去中心化有意义时
即使面临上述挑战,分散式机器学习也特别适合特定领域,例如:
- 医疗保健:医院可以共享和协作构建诊断模型,而无需共享敏感的患者信息。
- 金融服务:银行和金融科技公司可以在不违反隐私法的情况下分享见解。
- 自动驾驶汽车:每辆汽车都从其周围环境中学习,同时为主集体驾驶模型做出贡献,而无需提交原始影片片段。
- 智慧城市:物联网智能设备可以根据当地情况进行学习,同时将汇总的情报发送回城市规划者。
这些例子有一个共同的主题:敏感的、分布式的数据不能(或不应该)集中化。
人工智能的未来:更加本地化、更加私密、更具弹性
随着隐私法规日益严格,云服务价格不断上涨,去中心化机器学习正成为正确的应对之策。去中心化机器学习让原创机构能够保留对其数据的控制权,同时增强其AI流程的弹性,并为符合伦理道德的AI提供共生解决方案。
愿景很明确:世界上数十亿台设备都在不断地集体学习,不是通过放弃数据,而是通过跨越无形的界限共同努力。
这一未来并非缺乏细节,需要在边缘计算、隐私保护算法和全球合作方面持续创新。此外,还必须实现文化上的转变,倡导去中心化机器学习不仅仅是对人工智能的技术反思,更是思维方式上的必要转变。
结论:从集中智能走向集体智能
去中心化机器学习的意义远不止提升带宽或维护隐私,它还在于改变人工智能系统的权力结构。这些模型是谁的?谁能从这些洞察中受益?又由谁来决定什么是智能,以及智能的未来发展方向?
在拥有数十亿联网设备的世界中,分散式人工智能可以帮助我们从集中式智能转变为集体智能,同时又不会牺牲信任、隐私或自主权。
云计算并没有消亡,但它正在迅速失去其作为下一代机器学习中心的地位。
原文标题:Decentralized ML: Developing federated AI without a central cloud,作者:Tosin Clement