给呆板来一杯「忘情水」,这算不算呆板忘记?呆板进修经常被提及,那你有听过呆板忘记吗?呆板进修的目标大家都了解,它可能帮助我们的工作提升效率。但是呆板忘记是何目标?难道是「弃学」?现在,不仅关于呆板话题的讨论变得炽热,甚至出现专门为呆板忘记组织的挑战。近日,google AI 宣布联合广泛的学界与业界研究团队,组织首个呆板忘记挑战赛(Machine Unlearning Challenge)。至于举办这一呆板忘记挑战赛的目标,google表示希望有助于推进呆板忘记的 SOTA 水平,并鼓励开发高效、有效和合乎道德的忘记算法。
竞争内容都有啥?具体地讲,该挑战赛考虑这样一个真实场景:其中一个年龄预测器在人脸图象数据上从事了训练,接着在训练后,训练图象的某个子集必须被忘记,以破坏相关个人的隐衷或其他权利。
摘自 Face synaesthetics 数据集的图象以及年龄注释。竞争将在 Kaggle 平台上举办,提交的作品将根据忘记质量和模型实用性从事自动评分。其中对于评价忘记,本次挑战赛将使用受成员推理攻击(Membership inference attacks, MIAs)启发的工具,如 LiRa。MIAs 最初是在隐衷和安全文献中开发,其目标是推断哪些示例是训练集的一部分。直白地讲,如果忘记成功,忘记过的模型中将不包含被忘记示例的痕迹,这会导致 MIA 失败,即攻击者无法获知被忘记集实际上是原始训练集的一部分。此外,评价中还将使用统计测试来量化「忘记模型的分布」与从头开始从新训练的模型的分布的差异程度。相关竞争的信息可以查阅以下两个链接:https://unlearning-challenge.github.io/https://groups.google.com/g/unlearning-challenge或许有读者要问了,为什么在呆板进修的浪潮中,还会有这样一股呆板忘记的「逆流」奔涌呢?什么是呆板忘记呆板忘记是呆板进修的一个新兴领域,最终目标是打消一个训练模型特定训练样本子集的作用,即打消「忘记集」(forget set)的作用。此外,较为理想的忘记算法在打消某些样本作用的同时,还应该保持其他有益的特性,比如在其余训练集上的准确性以及对保持样本的泛化性。下图为忘记进修的剖析。忘记算法将一个预训练模型以及要忘记的训练集中的一个或多个样本作为输入。然后基于该模型、忘记集和保持集,忘记算法会生成一个更新模型。理想忘记算法生成的模型与没有忘记集参与训练的模型没有区别。
其实,有一个很「暴力」的方法可能得到这种理想的模型,就是在排除忘记集样本后,从新训练模型。这个「暴力」手段虽立竿见影,但并不可行,因为从新训练深度模型的成本实在太过高昂。因此,忘记进修算法应该是以训练好的模型作为基点,并对其从事调整,来打消所要求数据带来的作用。呆板忘记进修不仅仅应用于破坏用户隐衷,还可能通过训练,简略训练模型中不准确或者过时的信息,甚至是异常或者有害的数据。当然,这比打消几个指定忘记集难度大得多,这也意味着它更有用处,比如它可以通过纠正偏见或对属于不同群体的歧视来提高模型的公平性。
「排除、排除,全都扔掉」为何要发展呆板忘记大家都受益于收集信息的易得性,但是往往忽略了在整个收集上简略某一信息的艰苦。这堪比将一捧沙子撒入海里,再从不断涌动的海水中将沙粒一个个捡起,更重要的是,这些沙粒有不断复制的可能。由此可见,信息及时被简略了也能通过各种手段有所保持。在收集中留下的足迹,虽可能不被查询,但印记永存。2012 欧盟委员会就曾公布草案提出数据主体应享有「被忘记权」。这对大数据背景下互联网产业发展具有深远而广泛的作用。更别说近期正炽热的大型语言模型,更是以海量的数据集作为基础从事发展的。大模型对于训练集的细节内容会从事进修和记忆,其中不乏用户的隐衷信息,这导致可能涉及的隐衷风险更加严峻。因此呆板进修模型中的安全和隐衷问题是研究者必定面临的挑战。
网友表示,这场挑战赛将推动隐衷破坏。在这样艰苦、复杂的条件下,呆板忘记应运而生,有关于它的讨论和进修也日益成为呆板进修领域的焦点之一。参考链接:https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.htmlhttps://unlearning-challenge.github.io/
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/31891