AI在线 AI在线

EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治+动态聚焦,GUI 智能体推理时扩展的新范式

本文入选 EMNLP 2025 Main ConferenceEMNLP会议全称为Conference on Empirical Methods in Natural Language Processing,由国际计算语言学协会ACL举办,是自然语言处理和人工智能领域最重要的学术会议之一。 EMNLP 2025会议共有8174篇投稿,Main Conference接收率仅为22.16%。 项目主页:,针对多模态大语言模型(MLLMs)在复杂图形用户界面(GUI)定位任务中的挑战,通过动态视觉推理与模态感知优化显著提升性能。

EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治+动态聚焦,GUI 智能体推理时扩展的新范式

本文入选 EMNLP 2025 Main Conference

EMNLP会议全称为Conference on Empirical Methods in Natural Language Processing,由国际计算语言学协会ACL举办,是自然语言处理和人工智能领域最重要的学术会议之一。EMNLP 2025会议共有8174篇投稿,Main Conference接收率仅为22.16%。

项目主页:

https://wuhang03.github.io/DiMo-GUI-homepage/

摘要

本文介绍了一种无需额外训练的GUI定位框架DiMo-GUI,针对多模态大语言模型(MLLMs)在复杂图形用户界面(GUI)定位任务中的挑战,通过动态视觉推理与模态感知优化显著提升性能。DiMo-GUI采用逐级缩放的动态定位机制,迭代裁剪聚焦目标区域,减少视觉冗余;同时分离文本与图标模态,独立推理后结合指令评估确定最终目标,有效平衡多模态处理能力。在GUI定位任务最新的基准数据集上,DiMo-GUI相较基线展现显著性能提升。作为即插即用框架,DiMo-GUI适用于网页导航、移动应用自动化等场景,未来可通过回溯机制进一步提升鲁棒性。

该工作由vivo互联网算法团队、加州大学默塞德分校、昆士兰大学共同完成。

01、引言

随着图形用户界面(Graphical User Interface, GUI)在自动化导航和操作系统控制等领域的广泛应用,基于自然语言查询的GUI 定位(GUI Grounding)成为多模态大语言模型(multimodal large language models, MLLMs)的重要研究方向。然而,GUI 环境的视觉复杂性、语言歧义以及空间杂乱等问题为精准定位带来了显著挑战。

本文基于最新研究《DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning》,介绍了一种无需额外训练的 GUI 定位框架——DiMo-GUI,通过动态视觉推理和模态感知优化显著提升了多模态大模型在复杂 GUI 环境中的定位性能,推动了推理时扩展(test-time scaling)在该领域的发展。

EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治+动态聚焦,GUI 智能体推理时扩展的新范式

日常生活中,我们与电脑、手机的交互离不开图形用户界面。小到点赞、大到数据分析,我们都希望AI能像人一样,理解屏幕上的每一个按钮、每一段文字,并准确执行指令。然而,对于飞速发展中的多模态大模型来说,这却是前所未有的艰巨挑战。在一个复杂的App、网页或桌面软件中,用户可能随手一句“点击开始播放”,但对于AI来说,准确找到这个指令对应的图标/按钮并不简单:

  • 模态混杂:用户界面同时包含文本、图标、背景、装饰性元素等,干扰多;并且大多数VLM对文字理解更强,图标处理却弱,造成严重偏差;
  • 冗余信息:高分辨率UI中,重要区域可能只占整体的几十分之一,模型容易定位错误区域。

研究发现,传统方法如基于文本推理或单次视觉定位的管道在高分辨率、视觉拥挤的 GUI 中表现不佳。例如在最新的 ScreenSpot-Pro 数据集上,大多数通用模型如GPT-4o, Qwen2-VL等只有1%左右的正确率, 即使是针对于GUI定位任务的ShowUI, Aria-UI等智能体也只有10%左右的正确率。

02、关键改进

模态分离 + 动态定位

从上述问题出发,该研究推出零训练成本的DiMo-GUI,通过模态感知的视觉推理推进训练时扩展,显著提升多模态大模型的图形界面(GUI)理解能力。主要的改进方式包括以下两点:

  • 动态视觉定位:DiMo-GUI 采用逐级缩放机制,从粗略预测开始,基于初始坐标生成候选焦点区域,并通过迭代裁剪逐步聚焦目标。例如,首次推理后,模型以预测坐标为中心裁剪半个图像大小的区域作为下一轮输入,显著减少视觉冗余。动态迭代机制根据前后预测的坐标距离(小于图像对角线六分之一时停止)实现自适应停止,避免“过度思考”。
  • 模态感知优化:DiMo-GUI 将 GUI 元素分为文本和图标两类,分别进行独立的定位推理,生成文本坐标(C_text)和图标坐标(C_icon)。随后,模型结合原始指令和全分辨率图像评估两个候选坐标,确定最终目标 (C*),有效平衡文本和图标的处理能力。

这样的方式推动了推理时拓展(Test-time Scaling)在GUI定位这一领域的发展,提供了新的思路和方式。

EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治+动态聚焦,GUI 智能体推理时扩展的新范式

03、实验结果

无需训练和任何额外数据,只在推理阶段就可以大幅提升性能

EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治+动态聚焦,GUI 智能体推理时扩展的新范式

团队在最新的高分辨率GUI数据集 ScreenSpot-Pro 上验证发现:

  • DiMo-GUI可以作为即插即用的框架大幅提升多个GUI模型的性能。
  • 其中OS-Atlas-7B在引入DiMo-GUI之后获得了超过两倍的指标提升(18.9% -- 49.7%), UGround-7B和UGround-V1-7B也均获得了超过10%的指标提升。

在相对简单的ScreenSpot数据集上,DiMo-GUI同样可以提升多个模型的性能。

EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治+动态聚焦,GUI 智能体推理时扩展的新范式

定性结果表示,模型加入DiMo-GUI之后可以通过动态定位逐步逼近正确结果。

EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治+动态聚焦,GUI 智能体推理时扩展的新范式

04、总  结

DiMo-GUI 提供了一种高效、通用且无需训练的GUI定位框架,通过动态视觉推理和模态感知优化显著提升了多模态大语言模型在复杂 GUI 环境中的表现。其“即插即用”特性使其可无缝集成到现有GUI Agent中,适用于网页导航、移动应用自动化等场景。未来研究可探索引入回溯机制以纠正早期错误,进一步提升定位鲁棒性。

相关资讯

EMNLP 2025 | 动态压缩CoT推理新方法LightThinker来了

随着 AI 技术的飞速发展,从「快思考」到 「慢思考」,大语言模型(LLMs)在处理复杂推理任务上展现出惊人的能力。 无论是我们熟知的思维链(CoT),还是更复杂的深度思考模式(Thinking),都让 AI 的回答日益精准、可靠。 然而,这种性能的提升并非没有代价。
8/28/2025 2:12:00 PM
机器之心

告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升

大语言模型通过 CoT 已具备强大的数学推理能力,而 Beam Search、DVTS 等测试时扩展(Test-Time Scaling, TTS)方法可通过分配额外计算资源进一步提升准确性。 然而,现有方法存在两大关键缺陷:路径同质化(推理路径趋同)和中间结果利用不足(大量高质量推理分支被丢弃)。 为解决这些问题,华为诺亚方舟实验室联合香港中文大学等机构的研究人员提出逐步推理检查点分析(SRCA)框架 —— 在推理步骤间引入 “检查点”,并集成两大核心策略:(1)答案聚类搜索(Answer-Clustered Search):根据中间检查点答案对推理路径进行分组,在保证质量的同时维持路径多样性;(2)检查点候选增强(Checkpoint Candidate Augmentation):利用所有中间答案辅助最终决策。
9/2/2025 3:09:00 PM
机器之心

解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了

这篇文章给出了大模型 FP 量化的解决方案。大语言模型 (LLM) 压缩一直备受关注,后训练量化(Post-training Quantization) 是其中一种常用算法,但是现有 PTQ 方法大多数都是 integer 量化,且当比特数低于 8 时,量化后模型的准确率会下降非常多。想较于 Integer (INT) 量化,Floating Point (FP) 量化能更好的表示长尾分布,因而越来越多的硬件平台开始支持 FP 量化。而这篇文章给出了大模型 FP 量化的解决方案。文章发表在 EMNLP 2023 上
11/18/2023 9:33:00 AM
机器之心
  • 1