AI在线 AI在线

ICCV 2025 | 港科、牛津大学发布AlignGuard,文图生成模型可规模化安全对齐框架

本文共一作者为刘润涛和陈奕杰,香港科技大学计算机科学方向博士生,主要研究方向为多模态生成模型和偏好优化。 背景介绍随着文图生成模型的广泛应用,模型本身有限的安全防护机制使得用户有机会无意或故意生成有害的图片内容,并且该内容有可能会被恶意使用。 现有的安全措施主要依赖文本过滤或概念移除的策略,只能从文图生成模型的生成能力中移除少数几个概念。
图片

本文共一作者为刘润涛和陈奕杰,香港科技大学计算机科学方向博士生,主要研究方向为多模态生成模型和偏好优化。

1. 背景介绍

随着文图生成模型的广泛应用,模型本身有限的安全防护机制使得用户有机会无意或故意生成有害的图片内容,并且该内容有可能会被恶意使用。现有的安全措施主要依赖文本过滤或概念移除的策略,只能从文图生成模型的生成能力中移除少数几个概念。

在 ICCV 2025,AlignGuard 推出了一个通过直接偏好优化训练文图生成模型,并以此实现安全对齐的训练框架。通过生成有害和安全的图像 - 文本对数据集 CoProV2,AlignGuard 使 DPO 技术能够可规模化的应用于文图生成模型的安全目的。AlignGuard 的安全对齐框架可以针对不同的有害概念引入各自的安全专家,会对于每个概念训练低秩适应(LoRA)矩阵用以引导文图模型减少生成特定的有害概念。

图片图片
  • Paper: AlignGuard: Scalable Safety Alignment for Text-to-Image Generation

  • Paper Link: https://www.arxiv.org/abs/2412.10493

  • Github: https://github.com/Visualignment/SafetyDPO

  • Project page:https://alignguard.github.io/

2. AlignGuard 安全对齐框架

AlignGuard 这项工作的核心是提出一个面相扩散模型(Diffusion model)可规模化的安全对齐方法。通过生成针对安全内容的文图数据集,AlignGuard 的训练框架能在保有原本的生图内容的同时去除图片中的有害内容,并保持模型的高质量生图品质。

2.1 CoProv2 数据集构建

AlignGuard 首先围绕多种有害概念,构建了包含安全和不安全的图像文本对数据集 CoProV2。CoProV2 针对不同的有害概念,用 LLM 生成了一系列具有相似语义的有害与安全提示词对,并对每个提示词生成了对应的图片。

图片

相较于已有的人造数据集如 UD 和 I2P 缺少文本数据对应的图片,CoProV2 是一个更具规模且能够提供文本数据对应的图片的数据集。并且 CoProV2 数据内容也保有了一定程度的有害内容(IP),适合用来应用在安全对齐方向的直接偏好优化。

图片

2.2 AlignGuard 的训练架构设计

针对 CoProV2 中不同安全类别,AlignGuard 利用直接偏好优化技术为各个安全类别训练了各自的专家 LoRA 矩阵,包括 "仇恨"、"性"、"暴力" 等类别。在训练过程中,每个专家专注于学习特定领域的安全特征,以确保高效的概念移除。最后,AlignGuard 不同专家 LoRA 矩阵会被合并成单一的 LoRA 矩阵,以构造一个能够预防不同有害类别的提示词的安全生图模型。

图片

2.3 LoRA 专家合并策略

为了将不同安全专家合并成单一模型,AlignGuard 会基于各个专家的信号强度进行权重分析,并以此为合并策略将多个 LoRA 专家整合为单一模型,以实现最优的计算与安全性能。AlignGuard 的专家合并策略考虑了不同安全类别之间的相互作用,以确保合并后的模型在所有安全维度上都能保持一致的性能。

图片

3. 实验结果

3.1 生成定量结果

AlignGuard 在 CoProV2 危害概念移除任务中能够成功移除比现有方法多 7 倍的有害概念,并且同时保持了图像生成质量与文图的对齐程度。在未见数据集 I2P 和 UD 上也领先于现有方法,表明 AlignGuard 的泛化能力在面对新的有害概念时仍能保持稳健的安全性能。

图片

3.2 生成定性结果

相较于未被安全对齐的基线模型,AlignGuard 可以在包含有害词语的提示词上生成更为安全的图片。AlignGuard 的安全对齐策略可以在不过度影响生图内的前提下仅仅去除有害的元素。

图片

3.3 专家 LoRA 合并策略分析

相较于为各个安全概念各自训练一个专家模型并直接使用,AlignGuard 展示了合并不同专家模型可以更加有效得去除有害内容的生成。

图片

相较于其他如加权平均的 LoRA 矩阵合并策略,AlignGuard 的信号权重合并策略能够在有效降低生成有害内容的同时,保存模型的图像品质与图文对齐度。AlignGuard 的合并策略能够有效平衡不同安全专家之间的权重,避免专家间的冲突并最大化整体安全性能。

图片

4. 总结

文本到图像生成模型在缺乏有效安全措施的情况下,存在被用户滥用风险。AlignGuard 提出了一种基于直接偏好优化(DPO)的安全对齐方法。AlignGuard 安全对齐框架的创新在于:1. 将直接偏好优化技术规模化的应用于文生图模型的安全领域;2. 采用专家系统架构,针对不同有害图像类别训练专门的 LoRA 矩阵,然后通过模型的信号强度构造权重并整合为单一 LoRA,以此提升计算效率;3. 生成了成对的有害与无害的图文数据集 CoProV2,用以进行直接偏好优化训练。 AlignGuard 这种方法能够在保持模型生成质量的同时,移除比基准方法多 7 倍的有害概念。

相关资讯

从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果

作者:张昊,伊利诺伊大学香槟分校博士生,研究方向为 3D/4D 重建、生成建模与物理驱动动画。 目前在 Snap 担任研究实习生,曾于 Stability AI 和上海人工智能实验室实习。 PhysRig 由 UIUC 与 Stability AI 联合完成,旨在推动角色动画迈向更真实、可控的物理解法。
7/10/2025 5:02:00 PM
机器之心

ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

来自加州大学河滨分校(UC Riverside)、密歇根大学(University of Michigan)、威斯康星大学麦迪逊分校(University of Wisconsin–Madison)、德州农工大学(Texas A&M University)的团队在 ICCV 2025 发表首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架 UniOcc。 UniOcc 融合真实世界(nuScenes、Waymo)与仿真环境(CARLA、OpenCOOD)的多源数据,统一体素(voxel)格式与语义(semantic)标签,首次引入体素级前后向运动流标注,并支持多车协同占位预测与推理。 为摆脱伪标签(pseudo-label)评估限制,UniOcc 设计了多项免真值(ground-truth-free)指标,用于衡量物体形状合理性与时序一致性。
7/9/2025 3:36:00 PM
机器之心

ICCV 2025|降低扩散模型中的时空冗余,上交大EEdit实现免训练图像编辑加速

本论文共同第一作者闫泽轩和马跃分别是上海交通大学人工智能学院2025级研究生,以及香港科技大学2024级博士生。 目前在上海交通大学EPIC Lab进行科研实习,接受张林峰助理教授指导,研究方向是高效模型和AIGC。 本文主要介绍张林峰教授的团队的最新论文:EEdit⚡: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。
7/5/2025 6:34:00 PM
机器之心
  • 1