AI在线 AI在线

AlignGuard

ICCV 2025 | 港科、牛津大学发布AlignGuard,文图生成模型可规模化安全对齐框架

本文共一作者为刘润涛和陈奕杰,香港科技大学计算机科学方向博士生,主要研究方向为多模态生成模型和偏好优化。 背景介绍随着文图生成模型的广泛应用,模型本身有限的安全防护机制使得用户有机会无意或故意生成有害的图片内容,并且该内容有可能会被恶意使用。 现有的安全措施主要依赖文本过滤或概念移除的策略,只能从文图生成模型的生成能力中移除少数几个概念。
10/30/2025 11:55:00 AM
机器之心
  • 1