AI在线 AI在线

VFM-VAE

RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

近期,RAE(Diffusion Transformers with Representation Autoencoders)提出以「 冻结的预训练视觉表征」直接作为潜空间,以显著提升扩散模型的生成性能。 无独有偶,同期西安交通大学与微软亚洲研究院提出了「VFM-VAE」。 二者均基于冻结的预训练视觉模型构建语义潜空间,而 VFM-VAE 在结构上可视为 RAE 与 VAE 的结合:结合 VAE 的概率建模机制,将高维预训练模型特征压缩为低维潜空间表示,系统性地研究了在压缩条件下预训练视觉表征对 LDM 系统表征结构与生成性能的影响。
11/13/2025 6:34:00 PM
机器之心