杨强解读多篇研讨论文:联邦进修已进入2.0时代

从可托联邦进修的奠基性论文,到模型考证的创新思考。

隐衷计算的核心是「数据可用不可见」:既要保证数据在不出内陆的情况下被平安使用,实行价值流动,又要不断提高算法的效劳,它的出现旨在解决数据孤岛与损坏隐衷之间的两难课题。

近年来,人们对于隐衷计算,特别是联邦进修的重视程度越来越高,而微众银行一直是这项技术的引领者。近日,微众银行首席人工智能官杨强向我们分享了最近揭晓的重要研讨。

「在联邦进修的帮助下,如今的数据可以参与到联合建模项目中,让多方数据都可以不出内陆,并在损坏隐衷的前提下实行全局建模,」杨强介绍道。「我们可以实行数据不动模型动——使用分布在各地的计算机搜集,在金融、医疗、物联网等规模实行多种联邦进修的应用。」

在微众银行等机构的推动下,联邦进修已经发展进入了 2.0 阶段:可托联邦进修,新一代的技术可以对工程项目举行分析和认证,告诉用户联邦进修的平安程度,实行理论证明和标准化,进一步扩大了数据、模型和参与者的范围。

联邦进修的 2.0 阶段才刚刚开始,这一规模正在吸引全世界学者的响应。

最近一段时间,微众银行与上海交通大学、中山大学等机构联合撰写的《联邦进修中隐衷与模型机能没有免费午餐定理》《FedCG: 联邦条件对抗生成搜集》《FedIPR:联邦进修模型所属权考证》等论文已被 IJCAI 2022、TPAMI 2022、ACM TIST 国际人工智能顶级学术期刊和顶级学术会议收录揭晓。

「这些研讨基于不同角度,从理论到实践、规模化,到工程化和全生命周期管理,对我们的研讨举行了全面概括,」杨强说道。

作为机器进修的一种形式,联邦进修需要对数据举行处理,在实践中不可避免地面临着模型机能、隐衷损坏和效劳之间的权衡。论文《联邦进修中隐衷与模型机能没有免费午餐定理》中,在「可托联邦进修」理论框架下,研讨者们提出了隐衷损坏与模型机能的「No-free-lunch 平安 – 收益恒定」定律,利用该定律可实行可托联邦进修的平安、机能、效劳三者的协调,在实行更高质量的隐衷损坏的同时,既不牺牲数据平安损坏,也不致使模型机能和进修效劳的大幅下降。

在该研讨的基础上,研讨人员探讨了量化分析隐衷计算各种技术损坏方案的优劣,为进一步优化隐衷损坏算法设计寻找思路。微众银行 AI 团队和中山大学合作揭晓的论文《FedCG:利用条件生成对抗搜集在联邦进修中损坏隐衷并保持模型机能》提出了「FedCG」,将条件生成对抗搜集与分割进修相结合,实行对数据的有效隐衷损坏,同时保持有竞争力的模型机能。

杨强解读多篇研讨论文:联邦进修已进入2.0时代FedCG 示意。 

FedCG 的目的是损坏数据隐衷,同时保持有竞争力的模型机能。FedCG 将每个客户的内陆搜集分解为一个私有特征提取器和一个公共分类器,并将特征提取器保持在内陆以损坏隐衷。它与服务器共享客户端的生成器,以聚合共享知识,从而提高客户端内陆分类搜集的机能。实验表明,FedCG 具有高水平的隐衷损坏能力,并且可以实行有竞争力的模型机能。

「新方法可令每个参与方建立一个镜像模型,数据在镜像模型之间互相沟通,像防火墙一样大大降低了隐衷泄露的可能性,同时效劳和效果都大为提升,我们获得了非常可观的结果。」杨强介绍道。

除了对数据隐衷的需求,机器进修模型的平安也正被人们重视,在未来的数字化世界中,人们对于模型所属权的考证需求必将提升。人们希望能够为模型加入「水印」。在微众银行 AI 团队和上海交通大学联合揭晓的论文《FedIPR: 联邦进修模型所属权考证》中,研讨人员从算法、协议、平安等多个角度出发,就联邦进修模型知识产权损坏课题,分享了对模型知识产权损坏的思考和工作,提出了「FedIPR」联邦进修模型版权损坏框架。

该技术全球首次提出了归属权考证,在国际期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》上很快得到揭晓。

微众银行 AI 团队提出的框架分为两个阶段,其中黑盒阶段不需要访问模型参数和内部结构,只需输入特定样本进入模型 API, 根据模型输出判定模型所属权,为模型所属权提供初步依据。白盒考证阶段中,执法机关根据上一阶段,打开模型参数和结构,考证模型参数中是否嵌入有实行给定的能证明所属权的水印。

杨强解读多篇研讨论文:联邦进修已进入2.0时代水印和考证机制示意。

FedIPR 框架创新性地解决了模型所有权考证在联邦进修中的两大挑战,包括:1)多水印冲突课题。特别是对于基于特征的水印,对于不同的客户是否可以有一个通用的解决方案来嵌入他们的私人指定水印;2)机能课题。水印的稳健性表明模型水印是否能在联邦进修模型各种训练策略中适用,以及是否能抵御各种去除水印的攻击。

随着技术的发展和不断应用,联邦进修正逐渐成为人工智能规模的热门偏向,当前很多重点大学已经建立起联邦进修的研讨组。杨强教授也对研讨联邦进修谈了自己的思考:「联邦进修是多规模的交叉,我建议任何初学者应该侧重一个规模,然后了解其他的规模,最后在一个偏向上聚焦,为整个规模做作出贡献。」

大模型的出现使得我们看到了通用人工智能的端倪,也为联邦进修提供了下一个前沿。「如果数据来自不同的属主和数据集,这些数据集又是异构的,其属主又有不同的利益的诉求,在这个情况下如何能够持续的建立一个好的大模型,这样的课题未来几年可能会被逐渐关注,而且是大模型的一个发展偏向,」杨强介绍道。「迁移进修是另一个偏向,我们可以利用它尽量减少多个参与方之间的通讯,从而减少带宽需求,降低泄露隐衷的概率。」

面向实践的重要偏向则有关联邦进修的可解释性。如何把一个联邦进修的模型面向不同背景的人举行解释,如何在模型市场中对模型的全生命周期举行有效管理等等,这些能力又通向如何对模型举行订价的课题,众多研讨者正在举行这一偏向的研讨。

「从模型订价课题上,我们也可以反溯到数据订价中去。我认为这是数据订价有效的方式,」杨强表示。

论文链接:

《No Free Lunch Theorem for Security and Utility in Federated Learning》:https://arxiv.org/abs/2203.05816

《FedCG: Leverage Conditional GAN for Protecting Privacy and Maintaining Competitive Performance in Federated Learning》:https://www.ijcai.org/proceedings/2022/0324.pdf

《Practical Lossless Federated Singular Vector Decomposition over Billion-Scale Data》:https://arxiv.org/abs/2105.08925

《FedIPR: Ownership Verification for Federated Deep Neural Network Models》:https://arxiv.org/abs/2109.13236

原创文章,作者:李泽南,如若转载,请注明出处:https://www.iaiol.com/news/26071

(0)
上一篇 2022年11月14日 下午6:10
下一篇 2022年11月16日 上午9:09

相关推荐

  • 180G!华文ELECTRA预训练模型再升级

    在今年3月,哈工大讯飞联合实验室推出了华文ELECTRA预训练模型,并将相干资源进行开源,目前在GitHub上已获得580个star。本次更新中,我们将预训练语料从原有的约20G提升至180G,利用接

    2020年10月26日
  • 第四范式NeurIPS 2020:常识图谱嵌入的自动化

    人工智能顶级会议 NeurIPS 2020 将于 12 月 6 日 – 12 日线上举行。机器之心联合多位研讨者举办了线上分享活动,前不久,来自第四范式的资深研讨员姚权铭博士和大家分享了其参与并被 NeurIPS 2020 接收的论文《Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding》。

    这项研讨受神经架构搜寻(NAS)的启发,提出将 Interstellar 作为一种处理联系途径中信息的循环架构。此外,该研讨中的新型混合搜寻算法突破了 stand-alone 和 one-shot 搜寻方法的局限,并且有希望应用于其他具有复杂搜寻空间的领域。

    2020年11月27日
  • 上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊

    上海交通大学与上海人工智能实验室联合团队聚焦医学人工智能,提出了首个基于医学领域知识增强的 Chest X-ray 的基础模型。

    2023年7月6日
  • 一定要「分词」吗?Andrej Karpathy:是时候抛弃这个历史包袱了

    ChatGPT 等对话 AI 的出现让人们习惯了这样一件事情:输出一段文本、代码或一张图片,对话机器人就能给出你想要的答案。但在这种简单的交互方式背后,AI 模型要进行非常复杂的数据处理和运算,tokenization 就是比较常见的一种。

    2023年5月16日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注