AI在线 AI在线

ThinkDiff

ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

本文第一作者密振兴,香港科技大学计算机科学与技术学院人工智能方向博士生,研究方向是多模态理解与生成,3D/4D 重建与生成,目前正在寻找工业界全职职位或实习职位。 自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。 但它们往往只能根据精确的文字或图片提示作图,缺乏真正读懂图像与文本、在多模 态上下文中推理并创作的能力。
7/16/2025 12:50:00 PM
机器之心
  • 1