AI在线 AI在线

“左右脑互搏”还是“协同作战”? Uni-MMMU评估「理解-生成」双向协同

解几何题时,你是否会先画一条辅助线来帮助思考? 创作一幅画时,你是否需要先理解光影和物理原理? 这种「理解」与「生成」的紧密协同,是人类智能的核心特征。

解几何题时,你是否会先画一条辅助线来帮助思考?创作一幅画时,你是否需要先理解光影和物理原理?

这种「理解」与「生成」的紧密协同,是人类智能的核心特征。近年来,AI社区致力于构建「统一多模态模型」,期望它们能像人一样,在单个模型内同时具备强大的视觉理解和内容生成能力 。

我们如何知道统一模型的生成和理解能力有何协同作用

过去多模态评测常把理解与生成分开测,或只看表层一致性,难以揭示两者真正的交互与依赖。但很多真实任务恰恰要求“边画边想、边想边画”,体现出逻辑耦合。

“左右脑互搏”还是“协同作战”? Uni-MMMU评估「理解-生成」双向协同

为了解决这一问题,来自 S-Lab(南洋理工大学)、上海人工智能实验室、中国科学技术大学和香港中文大学的研究者们推出了 Uni-MMMU 

1.首个系统性评“理解↔生成双向增益”的基准:8 个推理中心任务,覆盖几何空间推理、STEM等强逻辑学科,分别检验“生成助理解”“理解助生成”。

2.过程+结果“双通道打分”:既看最终答案,也严查中间视觉步骤(如每一步生成图是否正确),并以可复现的程序化解析器/感知度量/模型打分综合评估,精准可复现。

3.关键发现:当前“统一模型”整体理解显著强于生成;“先生成中间态→再推理”比端到端更稳,若给到 “正确中间态(oracle)”,成绩还会显著上升。 

🚀 Uni-MMMU:一个“双向奔赴”的协同基准

Uni-MMMU的设计理念是“双向耦合” (bidirectionally coupled)。它涵盖了科学、编码、数学和谜题等8个以推理为中心的领域,系统地考察两种核心协同路径:

“左右脑互搏”还是“协同作战”? Uni-MMMU评估「理解-生成」双向协同

范式一:理解指导生成 (Und aids Gen)

在这类任务中,模型必须先“想明白”,才能“画得对”。

科学(物理/化学/生物): 模型需根据给定的初始状态和科学原理(如“柠檬汁是酸性的”),推理出最终的物理或化学变化,并生成描绘该结果的图像(如“紫色石蕊试纸浸入后变红”)。

代码渲染: 模型被给予原始的图形渲染源代码(SVG) ,它必须在不依赖外部工具的情况下,“读懂”代码逻辑(如形状、颜色、位置),先用自然语言描述出场景,然后再精确地将代码“渲染”成图像 。

范式二:生成辅助理解 (Gen aids Und)

在这类任务中,模型必须“边画边想”,利用生成的图像来辅助自己找到答案。

几何题: 这是对人类解题思路的直接模拟。模型需要先根据指令“画出”正确的辅助线,生成一张新图 ,然后再利用这张自己生成的图来进行逻辑推理,最终解出答案 。

迷宫导航: 模型需要一步一步地走出迷宫 。每一步,它都必须交替生成(1)下一步的移动方向(文本)和(2)移动后迷宫的新状态(图像)。

滑块Puzzle: 类似于迷宫,模型需要规划出到达目标状态的最短路径,并交替输出文本的移动指令和对应的拼图视觉状态 。

Jigsaw拼图: 模型需要面对一块缺失的拼图和两个候选补丁 。它必须先分别生成“用候选A补全”和“用候选B补全”的两张完整图像 ,然后再“看着”自己生成的这两张图,做出判断和推理,选出正确答案 。

评价体系同样讲究:

•所有任务的理解和生成部分均提供GT,同时评估中间模态和最终答案

•迷宫/滑块设计代码解析器将图像解析为离散状态,既算步级准确率也算整题准确率;

•拼图用      DreamSim 量化生成图与GT的感知相似度;

•几何/科学/代码引入LVLM 多维度打分,并报告Cohen’s  κ与人类专家评估的一致度,强调可靠性。

🔬评估与发现

研究团队使用 Uni-MMMU 对一系列开源闭源SOTA的统一模型(如 Bagel、nano-banana、GPT-4.1+GPT-image 等)和专用模型进行了全面评估 。

“左右脑互搏”还是“协同作战”? Uni-MMMU评估「理解-生成」双向协同

表中数据体现了开源与闭源模型之间的显著差距,此外结果也揭示了当前领域的重要见解:

发现一:生成理解协同作用真实有效

实验证明,这种「生成」与「理解」的协同是解决复杂问题的关键。分析显示,即使模型生成的中间步骤并不完美,也比完全不生成(即端到端)的方案准确率更高 。而当提供完美的中间步骤(Oracle)时,模型性能会得到巨幅提升 ,如表4所示。

“左右脑互搏”还是“协同作战”? Uni-MMMU评估「理解-生成」双向协同

发现二:当前统一模型普遍「偏科」,生成是最大瓶颈

评估暴露出一个清晰的趋势:当前统一模型严重偏向于「理解」能力,而「生成」能力是主要的瓶颈 。

模型的失败点高度集中在:

1.编辑一致性漂移      

2.指令遵循不严      

3.位置/拓扑偏差 

“左右脑互搏”还是“协同作战”? Uni-MMMU评估「理解-生成」双向协同

例如,在代码渲染任务中,Qwen-Image-Edit 会错误地将本应是文本描述的 SVG 代码也“渲染”到图像上 。在迷宫任务中,Bagel 则倾向于生成无法解析的“无意义符号” 。

“左右脑互搏”还是“协同作战”? Uni-MMMU评估「理解-生成」双向协同

相关资讯

搞 AI,孩子必须学好数学:马斯克 Altman 罕见达成一致,LeCun / Jeff Dean 等 31 位大佬签署联名信

【新智元导读】基础数学已经被拔高到研究 AI 的必经之路!UC 伯克利教授发起最新倡议,31 位 AI 大佬共同签署联名信,马斯克和 Altman 竟达成一致。就在刚刚,UC 伯克利 EECS 教授 Jelani Nelson 联合发起了一个倡议,强调「坚实的数学基础对人工智能至关重要」。地址:「虽然 Elon Musk 和 Sam Altman 最近在很多问题上都有分歧,但他们都认同,AI 的构建是以代数和微积分等坚实的数学基础为支撑的。」目前,已经有 31 位业内大佬在上面签署了自己的名字。要想搞好 AI,就必
3/7/2024 9:56:48 PM
清源

字节最新OmniHuman数字人模型即将上线即梦

近期,即梦AI在官方社交媒体上发布了一条新功能上线预告片。 视频显示,采用了全新的多模态视频生成模型OmniHuman,用户仅需输入一张图片和一段音频,就可以生成一条生动的AI视频,有望大幅提升AI短片的制作效率和质量。 图片来自即梦AI视频号内容截图OmniHuman技术主页信息显示,该模型为字节跳动自研的闭源模型,可支持肖像、半身以及全身等不同尺寸的图片输入,并根据输入的音频,在视频中让人物生成与之匹配的动作,包括演讲、唱歌、乐器演奏以及移动。
2/7/2025 5:36:00 PM
新闻助手

多中心医学图像分析模型,VFMGL框架破解数据孤岛难题,93.4% Dice系数的卓越表现

编辑丨&在众多中下游任务中,收到广泛而多样的数据集训练的基础模型表现出的强大性能,在医疗领域表现却不甚得人心。 受到到数据量、异质性和隐私问题等问题的严重阻碍,基础模型得不到更进一步的发展。 桂林航空航天大学联合江门市中心医院等推出了 Vision Foundation Model General Lightweight(VFMGL)框架,以促进各种医疗任务的专家临床模型的去中心化构建。
3/5/2025 5:48:00 PM
ScienceAI
  • 1