AI在线 AI在线

ICML2025|探索损失加权机制的本质以实现更好的LLM反学习

基于海量数据训练得到的大语言模型(LLM)表现出强大的推理和解决问题的能力,但也深受海量数据带来的敏感信息(隐私、安全、伦理问题)困扰。 机器反学习(Unlearning)旨在准确擦除目标知识,同时保持模型在其他目标任务上的能力。 基于损失加权方法的诸多探索已表现出对于LLM反学习的益处,然而,它们的具体功能并不明确,最佳策略也是一个悬而未决的问题,因此阻碍了对现有方法的理解和改进。

基于海量数据训练得到的大语言模型(LLM)表现出强大的推理和解决问题的能力,但也深受海量数据带来的敏感信息(隐私、安全、伦理问题)困扰。机器反学习(Unlearning)旨在准确擦除目标知识,同时保持模型在其他目标任务上的能力。基于损失加权方法的诸多探索已表现出对于LLM反学习的益处,然而,它们的具体功能并不明确,最佳策略也是一个悬而未决的问题,因此阻碍了对现有方法的理解和改进。因此,香港浸会大学与悉尼大学、香港理工大学合作发表论文《Exploring Criteria of Loss Reweighting to Enhance LLM Unlearning》,深入探索和讨论了现有方法的效用本质,填补了加权去学习的研究空白,明确训练时诸多设定细节对模型性能的影响。基于以上发现,该论文提出了一种SatImp方法,更好地实现了大语言模型在知识遗忘和知识保存间的平衡。

论文已在ICML 2025发表:

ICML2025|探索损失加权机制的本质以实现更好的LLM反学习

论文标题:Exploring Criteria of Loss Reweighting to Enhance LLM Unlearning

论文链接:https://www.arxiv.org/abs/2505.11953

项目代码:https://github.com/tmlr-group/SatImp

引言

大型语言模型(LLMs)的卓越功能基于对源于网络的大规模数据集的使用。然而,这些数据集也带来了巨大的风险,因为它们可能隐含非法、隐私、敏感内容,导致潜在的法律和伦理风险。因此,研究者们提出了反学习(LLM Unlearning)这一问题,意图在不完全重新训练的条件下,针对性删除已参数化的不良知识,同时尽可能保持模型在其他任务上的性能。

在已有的探索方法中,梯度上升(Gradient Ascent,GA)方法作为经典的反学习方法,简单有效但易出现过度遗忘,即不但遗忘了不良知识,还遗忘了其他任务的知识。为了改善这一缺陷,近期的诸多探索,如负偏好优化(Negative Preference Optimization,NPO)、偏好优化(Preference Optimization,PO),表征误导遗忘(Representation Misdirection for Unlearning,RMU),加权梯度上升(Weighted Gradient Ascent,WGA)等,均通过在损失计算中添加权重实现改进。然而,这些加权机制发挥效能的具体原因上不明确,最优加权的发展方向仍然模糊,这些函待解决的问题迟滞了深层理解和提升相关技术的步伐。

为解决以上问题,作者首先总结现有损失加权机制,并将其总结为“基于饱和度的加权”:

ICML2025|探索损失加权机制的本质以实现更好的LLM反学习

公式一 基于饱和度的加权方法

如公式1所示,现有方法均为该式的子式,当阈值ICML2025|探索损失加权机制的本质以实现更好的LLM反学习为一个受原始模型和遗忘模型影响的变量时,公式1可具体为任一现有方法,例如负偏好优化(Negative Preference Optimization,NPO):

ICML2025|探索损失加权机制的本质以实现更好的LLM反学习

“基于饱和度的加权”通过表示所有遗忘单元(样本或单词)的遗忘程度并以之为权重,强调了对未充分遗忘单元的重点优化。然而,另一种加权机制认为,不是所有的遗忘单元都需要被遗忘,如图1所示,红色单词为该答案的关键词,人类无法理解关键词缺失下的答案。因此,只需完成对于关键词的遗忘即可。令人遗憾的是,现有方法忽略了这一“基于重要性的加权”方向。

ICML2025|探索损失加权机制的本质以实现更好的LLM反学习

本工作历史首次探索了“基于重要性的加权”方向,具体的,考虑到现有评测基准不包含关键词标注,本工作首先在常用的TOFU数据集上完成了相关标注。进一步的,考虑到在海量数据上完成标注费时费力,本工作尝试寻找一种近似表示。如图2所示,在对权重和负对数似然的相关性的探索中,一个令人惊喜的结论浮出水面:“基于饱和度的加权”倾向于将更大的权重分配给更小的负对数似然,“基于重要性的加权”则相反。

ICML2025|探索损失加权机制的本质以实现更好的LLM反学习

基于上述初步探索,本工作力求寻找更优的加权方向。首先,本工作对比两种加权方向的性能差异,如表1所示,“基于饱和度的加权”通常优于“基于重要性的加权”,且二者联合能取得更优的性能。

ICML2025|探索损失加权机制的本质以实现更好的LLM反学习

其次,本工作探索不同训练细节(包括平滑度、采样方式、颗粒度)对于训练结果的影响,如图3所示,使用软加权(左一、二)和更细粒度(右一、二)的训练策略是被推荐的。平滑度则须控制在一定范围内,否则将导致显著的欠/过遗忘问题(右一、二)。

ICML2025|探索损失加权机制的本质以实现更好的LLM反学习

最后,本工作提出一种新的加权方法SatImp,如式2所示,

ICML2025|探索损失加权机制的本质以实现更好的LLM反学习

SatImp结合了饱和度、重要性的加权思想。不同于现有方法过度强调极大极小损失(图4左红色蓝色线),SatImp着重强调了负对数似然值居中的token(图4左绿色线)。双超参数也给SatImp带来了更多元的权重表示,有助于在不同场景需求下提供更优的权重选择(图4右)。

ICML2025|探索损失加权机制的本质以实现更好的LLM反学习

在多个测试基准上的实验结果表明了SatImp的优越性和泛化性。如表2,3所示,作者希望本工作能够带给大语言模型去学习一个全新的视角,吸引更多研究者对“基于重要性的加权”方向和“饱和度-重要性”结合方向进行深入探索,共同推动可信大语言模型的进一步发展。

课题组介绍

香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成,课题组隶属于理学院计算机系。课题组专攻可信基础模型、可信表征学习、基于因果推理的可信学习等相关的算法,理论和系统设计以及在自然科学上的应用,具体研究方向和相关成果详见本组 Github https://github.com/tmlr-group。

课题组由政府科研基金以及工业界科研基金资助,如香港研究资助局新进学者协作研究补助金、优配研究金和杰出青年学者计划,国家自然科学基金面上项目和青年项目,以及微软、英伟达、字节跳动、百度、阿里、腾讯等企业的教职科研基金。青年教授和资深研究员手把手带,GPU 计算资源充足,长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外,本组也欢迎自费的访问博士后研究员、博士生和研究助理申请,访问至少 3-6 个月,支持远程访问。有兴趣的同学请发送个人简历和初步研究计划到邮箱[email protected]

相关资讯

ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval

本文工作由清华大学电子系医工交叉平台吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队,联合北邮、科大讯飞、无问芯穹等单位共同完成。 第一作者周宇轩为清华大学电子工程系博士生,其研究方向聚焦于大模型的医疗垂类能力评估与优化,此前已提出 MultifacetEval(IJCAI 2024)与 PretexEval(ICLR 2025)等医学知识掌握的多面动态评估框架体系。 吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队长期致力于面向真实需求驱动的医工交叉前沿技术研究与产业变革,曾在 2017 年联合科大讯飞研发了首个以 456 分高分通过国家临床执业医师资格考试综合笔试测试 AI 引擎 Med3R(Nature Communications 2018)并在全国 400 多个区县服务于基层医疗;2021 年联合惠及智医研发了首个基于全病历内容分析的智慧医保 AI 审核引擎,获得国家医保局智慧医保大赛一等奖,并在全国多个省市进行示范应用。
7/23/2025 10:30:00 AM
机器之心

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

可保护作品免遭 AI 训练,Adobe 推出 Content Authenticity 应用

Adobe 推出全新应用 Content Authenticity,用于保护创意工作者的作品署名权,即使有人截屏并在网络二次传播也不受影响。这款网页应用于今日面向公众开放测试,用户上传需要保护的图像,应用就能嵌入隐形元数据和添加“禁止 AI 训练”标签,帮助确认作品归属和保护作品免遭 AI 训练。
4/24/2025 9:32:18 PM
准泽(实习)
  • 1