突破传统！FUDOKI 模型让多模态生成与理解更灵活、更高效

作者：AI在线 2025-06-10 07:00

近年来人工智能领域发生了翻天覆地的变化，尤其是大型语言模型（LLMs）在多模态任务上取得了显著进展。这些模型在理解和生成语言的能力上展现出了强大的潜力，但目前大多数多模态模型依然采用自回归(AR)架构，推理过程较为单一、缺乏灵活性。为此，香港大学和华为诺亚方舟实验室的研究团队提出了一种全新的模型 ——FUDOKI，旨在打破这一局限。

FUDOKI 的核心创新在于其全新的非掩码离散流匹配（Discrete Flow Matching）架构。与传统的自回归模型不同，FUDOKI 通过并行去噪机制，能够实现双向信息整合，从而显著提升模型在复杂推理和生成任务中的表现。该模型不仅在图像生成与文本理解之间架起了桥梁，还实现了两者的统一建模。

大脑大模型 AI

图源备注：图片由AI生成，图片授权服务商Midjourney

这一模型的优势在于其去掩码的设计，使得生成过程更加灵活。FUDOKI 在推理过程中允许动态调整生成结果，仿佛让机器学习到了人类的思维方式。此外，FUDOKI 在生成图像方面的表现尤为出色，在 GenEval 基准上取得了0.76的成绩，超越了同尺寸的自回归模型，展现出高质量的生成效果和语义准确性。

FUDOKI 的构建依赖于度量诱导的概率路径和动力学最优速度。这些技术使得模型能够在生成过程中综合考虑每个 token 的语义相似性，从而实现更加自然的文本和图像生成。同时，在模型训练上，FUDOKI 利用预训练的自回归模型进行初始化，降低了训练成本，提升了效率。

FUDOKI 的推出不仅为多模态生成和理解提供了新的视角，还为通用人工智能的发展奠定了更为坚实的基础。未来，我们期待 FUDOKI 能够带来更多的探索与突破，推动人工智能技术的进一步发展。

Breaking Traditions! FUDOKI Model Makes Multi-Modal Generation and Understanding More Flexible and Efficient

In recent years, the field of artificial intelligence has undergone tremendous changes, particularly with large language models (LLMs) making significant progress in multi-modal tasks. These models demonstrate powerful potential in understanding and generating language, but most current multi-modal models still adopt autoregressive (AR) architectures, which limit their inference process to be relatively monotonous and lacking in flexibility. To address this limitation, a research team from The University of Hong Kong and Huawei Noah’s Ark Lab has proposed a novel model called FUDOKI.The core innovation of FUDOKI lies in its entirely new non-masked discrete flow matching architecture.

6/16/2025 9:49:02 AM

AI在线

基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了

这个模型和 Sora 一样采用了 DiT 框架。众所周知，开发顶级的文生图（T2I）模型需要大量资源，因此资源有限的个人研究者基本都不可能承担得起，这也成为了 AIGC（人工智能内容生成）社区创新的一大阻碍。同时随着时间的推移，AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。于是关键的问题来了：我们能以怎样的方式将这些新元素高效地整合进现有模型，依托有限的资源让模型变得更强大？为了探索这个问题，华为诺亚方舟实验室等研究机构的一个研究团队提出一种新的训练方法：由弱到强式训练（weak-to-stro

3/11/2024 11:51:00 AM

机器之心

DenseMamba：大模型的DenseNet时刻，Mamba和RetNet精度显著提升

近期，来自华为诺亚方舟实验室的研究者提出了 DenseSSM，用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中，DenseSSM 保留了对最终输出至关重要的精细信息。DenseSSM 在保持训练并行性和推理效率的同时，通过密集连接实现了性能提升。该方法可广泛应用于各种 SSM 类型，如 Mamba 和 RetNet。随着 ChatGPT 的突破性进展，大型语言模型（LLMs）迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年，人们目睹了 LL

3/11/2024 2:32:00 PM

机器之心

突破传统！FUDOKI 模型让多模态生成与理解更灵活、更高效

相关资讯

Breaking Traditions! FUDOKI Model Makes Multi-Modal Generation and Understanding More Flexible and Efficient

基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了

DenseMamba：大模型的DenseNet时刻，Mamba和RetNet精度显著提升