CVPR 2022 | 联邦学习审计隐衷新手段,田纳西大学等提出天生式梯度流露格式GGL

本文提出一种利用天生模型作为图片先验的梯度袭击格式GGL,由来自美国田纳西大学,美国橡树岭国家试验室,和谷歌共同完成,论文已被 CVPR 2022 接收。

联邦学习 (federated learning) 是一种在中心服务器 (server)的协调下利用分散在各用户 (client)的本地数据集协同训练模型的一种分布式训练模式。为保证参与方隐衷,训练过程中,训练数据不会离开本地,取而代之的是模型相关的信息(例如模型架构,参数梯度)会被共享至服务器端,从而降低了数据流露的风险。然而这种梯度共享的训练方案并非绝对安全:尽管避免了中央服务器直接接触用户数据,服务器仍可使用梯度袭击从交换的参数梯度中复原用户的本地训练数据。格式是先随机天生虚拟训练数据,并以此天生虚拟梯度,再以缩小虚拟梯度与真实梯度差距为优化目标通过梯度下降反复迭代,即可复原用户私人数据。此种袭击被称为梯度流露(gradient leakage)[1] 或梯度逆转(gradient inversion)[2]。为防卫此种梯度袭击,一些研究提出用户在上传前可先对梯度信息添加噪声扰动或者进行有损转换(例如梯度裁剪或梯度稀疏化处理)来更好的保障信息安全。此前研究 [3] 也表明混淆数据表征(data representation)并依此天生梯度信息亦可有效防止梯度流露。那么如何检验此类隐衷防卫的安全性?最直观的想法是可引入先验信息来补偿防卫造成的信息损失。基于这一思想,本文探索一种新的梯度袭击方式 – 天生式梯度流露(Generative Gradient Leakage,GGL)。相较于传统梯度袭击,GGL 通过借助天生对抗网络(Generative Adversarial Network, GAN)在公开数据集上提取的先验信息以及适应性梯度转换,可以从更少量有噪音的梯度信息中复原隐衷数据,从而获得更强的防卫耐受力。我们希望这种格式可作为一种实证研究的手段来帮助审计隐衷防卫下的数据流露。这项由美国田纳西大学,美国橡树岭国家试验室,和谷歌共同完成的研究已被 CVPR 2022 接收。

图片

论文地址:https://arxiv.org/pdf/2203.15696.pdf

项目地址:https://github.com/zhuohangli/GGL

格式给定训练数据 x,从其交换的梯度信息 y 中恢复训练数据的过程可被视为一个逆问题:

图片

其中图片是前向运算符,用来计算损失并返回模型梯度。当用户在本地采取防卫措施时,问题变为:

图片

其中图片是用户施加的有损梯度转换,而图片是随机噪声。由于此问题高度非线性且不适定,以往的格式试图通过如下形式来求解:

图片

其中图片是一种距离度量,而图片是标准图象先验(如 total variation)。尽管这种格式可以有效从真实梯度中复原训练图象,当面临低保真且有噪声的梯度信息时,往往难以复原出真实的自然图片。

图片

图 1 – 格式整体思想近年来深度学习模型已在压缩感知中被作为图片先验广泛运用。受此启发,本文利用在公开数据集上预训练的天生模型(GAN)作为先验,在 GAN 的潜在空间中寻找最接近真实图片梯度的隐形表达,以此来降低搜索空间并提升天生图片质量,同时在优化过程中可以采取相同转换进行适应性袭击。给定预训练天生模型图片,我们求解以下优化问题:

图片

其中图片为 GAN 的潜在空间,而图片是正则化项。

由于此优化问题非凸,选取合适的优化策略对于求解后天生的图象质量非常重要。此前梯度袭击中多选取基于梯度的优化算法,如 Adam 和 L-BFGS。然而这类优化器的成果非常依赖起始点的选择,往往需要多次尝试才能找到相对合适的解。并且我们发现,对于复杂的天生器,梯度优化算法非常容易收敛至局部最优,导致最后复原成果很差。因此,我们探索了两种无梯度的优化算法,即 Bayesian Optimization (BO) 和 Covariance Matrix Adaptation Evolution Strategy (CMA-ES)。试验本文在 ImageNet 图象分类和 CelebA 人脸数据集上进行了试验验证。图 1 和表 1 分别定性和定额地比较了不同优化格式的复原成果。可以看出基于梯度和无梯度优化算法在 CelebA 数据集上复原成果相近。然而,在更复杂的 ImageNet 数据集上,无梯度优化格式的复原结果明显优于基于梯度的算法,其中,CMA-ES 复原成果最优。因此,GGL 选取 CMA-ES 在作为默认优化器进行后续试验。

图片

图 2 – 不同优化器成果的视觉比较

图片

表 1 – 不同优化器成果的定额比较图 3 和图 4 分别在 CelebA 和 ImageNet 数据集上比较了 GGL 和现存袭击格式在面临不同防卫的情况下的复原成果。从视觉比较及表 2 的定额结果中可以看到,相比于其他复原格式,借助于天生模型的图片先验,GGL 即便是在面临较强的防卫格式时也可以从有损失的梯度中有效复原出大部分的图片信息。

图片

图 3 – CelebA 试验结果

图片

图 4 – ImageNet 试验结果

图片

表 2 – 定额比较结果图 5 展示了 GGL 面临梯度噪声和梯度剪裁,以及两者结合的防卫情况下的复原成果。可以看到,与仅添加噪声或梯度剪裁相比,当面临梯度噪声 + 剪裁时,GGL 复原图片的质量有所下降,但仍可一定程度上复原原始图片的信息。

图片

图 5 – 组合防卫结果通过利用在公开数据集上提取的先验信息以及适应性梯度转换,GGL 在面临一些隐衷防卫时仍可有效复原出大部分图片信息,从而可以作为一种审计隐衷手段来分析数据流露风险。参考文献[1] Zhu, Ligeng, et al. "Deep leakage from gradients." Advances in Neural Information Processing Systems. 2019.[2] Geiping, Jonas, et al. "Inverting gradients-how easy is it to break privacy in federated learning?." Advances in Neural Information Processing Systems. 2020.[3] Sun, Jingwei, et al. "Soteria: Provable defense against privacy leakage in federated learning from representation perspective." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/cvpr2022-lian-bang-xue-xi-shen-ji-yin-zhong-xin-shou-duan/

(0)
上一篇 2022年 4月 10日 下午12:40
下一篇 2022年 4月 10日 下午12:49

相关推荐

  • 邢波任校长的MBZUAI大学国内招生了,Michael Jordan、Raj Reddy等大佬授课

    提起 Michael Jordan 和 Raj Reddy,读者们一定都不陌生。他们是人工智能领域的泰斗级人物。 左:Michael Jordan;右:Raj Reddy最近,这两位宗师级大咖公布了他们的最新动态:在位于阿布扎比的全世界第一所人工智能大学 MBZUAI(穆罕默德 · 本 · 扎耶德人工智能大学)推出的 AI 高级管理项目(MBZUAI Executive Program)中分别主讲「AI, Machine Learning and Economy」 及「Lingual Cognition a

    2021年 12月 10日
  • 5份精选汇报:274家样本刻画中国企业数字化群像,近三分之一传统企业困于路径依赖

    机械之能今日精选5篇企业数字化转型调研汇报。囊括了来自各行各业的274家大、中、小企业的数字化转型情况,用真实调研描绘中国企业数字化转型群像;同时汇总了对超过1000名制作业和供应链专业人士的调查结果,并提供在整个供应链行业正发生的技术创新和由此带来的劳动力挑战的洞察;在实操方面,也指出了产业智能制作转型和服务业数字化的具体路径,可参考性强。『汇报一』企业数字化升级之路——百家企业数字化转型倒退分析汇报 数字化已经成为经济倒退的新动能。企业数字化成长已成为顺应时代潮流、响应政策号召、适应行业竞争、呼应市场

    2020年 12月 7日
  • 我用YOLOv5做情绪识别!

    AI技术已经应用到了我们生活中的方方面面,而目标检测是其中应用最广泛的算法之一。本文将教大家如何快速上手目标检测模型YOLOv5,并将其应用到情绪识别中。

    2022年 3月 30日
  • ICCV 2021审稿结果出炉,有人已总结出了一份Rebuttal写作指南

    又一个计算机视觉顶会通过了审稿阶段。论文评分是这样,想好怎么 rebuttal 了吗?

    2021年 6月 12日
  • 墨芯首席科学家严恩勖:用稠密化解决时代最严峻的算力寻衅

    人工智能进入黄金时代,正改变各行各业以及我们的日常生活。今日集微网报道,随着人工智能使用的普及,稠密化进入人工智能行业的主流企业视野。稠密化估计能帮助人工智能突破硬件算力极限,有望实行十倍、甚至百倍的人工智能使用加快,并大幅降低估计成本。墨芯人工智能从诞生起,即专注于稠密化估计产品和解决方案,独创双稠密算法,为客户提供高品质AI估计解决方案,携手共创AI估计未来。为此,墨芯人工智能首席科学家严恩勖针对企业目前的发展历程、研究成果、企业劣势、未来发展等,与集微网分享了他的看法和观点。以下为访谈内容:集微网:在AI报告

    2022年 7月 12日
  • 参加这场大佬云集的开发者大会,还能抽RTX3060,请叫我「良心之心」

    这是一场 AI 开发者的盛会!2021 WAIC AI 开发者论坛上,多位业界大咖齐聚一堂,共同探讨后深度学习时代的 AI 发展。目前,AI 开发者论坛招募活动已经开启,1000 席免费专业观众席位 7 月 2 日报名截止。7 月 10 日上海,不见不散。

    2021年 6月 25日
  • 性能提升、成本降低,这是分布式强化进修算法最新研究进展

    深度强化进修(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效(data inefficiency)问题,受到分布式机器进修技术的启发,分布式深度强化进修 (distributed deep reinforcement learning,DDRL) 已提出并成功应用于盘算机视觉和自然语言处理领域。有观点认为,分布式强化进修是深度强化进修走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化进修是一个综合的研究子领域,需

    2024年 2月 15日
  • 引入多感官数据进修,华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

    UT-Austin 本年度的最佳博士论文奖获取者 Ruohan Gao,目前是斯坦福大学的博士后钻研员。

    2021年 10月 27日
  • Alluxio宣布获得新一轮5000万美元融资

    新设中国区总部,开启寰球扩张新征程

    2021年 11月 17日
  • 迈向模仿人脑的光电芯片:对一位热衷于改进 SNN 的 NIST 钻研人员的采访

    cIEEE Spectrum 近来与美国国家标准与技术钻研院(NIST)的物理学家 Jeffrey Shainline 从事了交谈,他的工作可能会对这个问题有所启发。Shainline 在钻研一种可以为高级形式的人工智能提供支持的计算方法——所谓的脉冲神经网络(spiking neural networks,SNN),与现在广泛部署的人工神经网络相比,它更接近地模仿大脑的工作方式。今天,主流的模式是运用在数字计算机上运行的软件来创建具有多层神经元的人工神经网络。这些「深度」人工神经网络已被

    2022年 4月 24日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注