AI在线 AI在线

更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

最新开源多模态智能体,能自动操作手机、电脑、浏览器的那种! 开源评测榜单和中文场景交互成绩全面提升。 比如让它播放一首歌,它就能自己找到对应软件、找到对应歌手、选择歌曲,像人类一样点击、滑动、输入。

最新开源多模态智能体,能自动操作手机、电脑、浏览器的那种!开源评测榜单和中文场景交互成绩全面提升。

比如让它播放一首歌,它就能自己找到对应软件、找到对应歌手、选择歌曲,像人类一样点击、滑动、输入。其中,多模态智能体学习和交互的对象是多步执行的轨迹数据。

它适用于手机/电脑上的复杂多步任务,尤其是在中文APP场景下的真实交互方面具有优势。

更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

来自浙江大学和美团的研究者们开源了多模态智能体UItron,具有先进的GUI内容感知、任务定位和推理规划能力,以及优秀的中文场景交互能力

UItron弥补了操作轨迹的稀缺性和智能体交互基建的可用性,提供了更好的基础能力来促进未来的智能体研究,图中展示了UItron和基准方法在十个主流评测榜单中的性能对比,显示了全面的性能水平提升。

更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

方法与技术

多模态智能体依赖高质量的操作轨迹和可交互的虚拟环境,因此构建多模态智能体是一项有挑战的任务。UItron构建了系统性的数据工程来缓解操作轨迹的缺乏,搭建了可交互的虚拟环境支持手机/电脑的连接,提出了从简单离线强化学习到复杂在线强化学习的训练方法。

数据工程

研究者探索了系统的数据工程来改进UItron,包括感知数据、规划数据和蒸馏数据,如下图所示。此外,还组织了少量有利于多模态智能体训练的通用多模态数据,以及中文场景的高质量手动标注数据。具体地,在感知数据中,UItron将广泛来源的跨平台数据整理到统一的多轮对话模板中,有效的扩大了可用训练数据的规模。

同时,UItron整合了UI内容关联的多任务数据,包括OCR\VQA\Caption等,这些多任务数据有效的提供了基础的页面理解能力。在规划数据中,UItron系统地研究了一系列提高训练效果的数据工程策略,包括利用各种轨迹元素(如观察、 思想和行动),探索不同的推理格式,以及结合各种 反射机制(如回溯)。

更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

交互基建

为了便于轨迹数据收集、在线评估和强化学习训练,UItron构建了一个连接移动和PC设备的交互环境基建,如下图所示。其意义来自以下三个方面。首先,移动端和PC端的交互环境提供了自动记录截图和坐标的功能,大大简化了手动标注轨迹数据的难度,尤其是提高了收集中文场景下操作轨迹的效率。

其次,为移动端和PC端的交互环境提供了一种实现方式,不仅实现了传统的英文环境下智能体交互环境(如OSWorld),还实现了中文环境中和国内App的交互环境。最后,通过连接手机/电脑,为在线强化学习提供了训练基础,模型在训练的过程中不断输出执行动作,然后访问交互环境获得执行后的新界面,从而交替循环下去直到任务完成。

更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

训练范式

在训练过程中,UItron采用了一个三阶段的训练策略(如下图所示),其中包括两个用于感知和规划任务的SFT阶段,以及一个带有课程强化学习框架的RL阶段。

在第一阶段,感知任务侧重于提高GUI场景中视觉语言模型的基本理解能力,如定位、问答、描述和OCR。

在第二阶段,规划任务集中于根据历史行动预测下一个行动,从而获得长步骤的推理和执行能力。

在最后的强化学习阶段,课程强化学习框架旨在通过对轨迹数据的群体相对策略优化算法来提高推理和探索能力,包括从简单的离线环境中进行步骤级的强化学习到复杂的在线环境中进行任务级的强化学习算法。

更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

重点考虑国内月活前100的Apps

研究者进行了广泛的实验,涵盖场景包括GUI感知、定位、离线规划和在线规划。除了公开评测榜单之外,研究者还在自建中文APP场景下的离线环境和在线环境中进行充分的评测。以下是一些代表性的评测:

首先是在经典的开源榜单ScreenspotV2上,UItron实现了92.0的平均分数,优于现有的方法,反映了较强的GUI内容理解能力和任务定位能力。

更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

在代表性的离线规划榜单Android-Control和GUI-Odyssey上,UItron实现了92.9的最高平均分,显著优于其他工作,展示了很强的任务规划和执行能力。

更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

在开源环境中,在最受关注的评测榜单OSWorld上进行了对比,UItron取得了24.9的分数(15 Steps),在所有GUI Agent中性能最佳,弱于CUA方法,这是因为CUA方法只专注于优化compute-use场景。

更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

特别的,研究者还强调了中文场景下和头部的APP进行交互的能力,重点考虑了国内月活前100的Apps。研究者们构建了一个离线环境和一个在线环境进行中文App能力的评测,实验结果表明UItron取得了明显的性能优势,通过中文操作轨迹收集和中文交互环境基建改进了中文场景的智能体水平。

UItron在多模态智能体的主流榜单中都取得了较好的效果,为领域提供了一个开源的更强的基础模型,期望推动未来技术的发展。同时,UItron强调了多模态智能体的可用性、可信度研究,尤其是面向真实应用诉求的中文App交互能力,发挥其应用价值和提升人机交互的效率。

项目地址:https://github.com/UITron-hub/UItron

论文地址:https://github.com/UITron-hub/UItron/blob/main/report/uitron.pdf

相关资讯

掌控 AI 智能体自主性:五级框架下的人机协作之道

大家好,我是肆〇柒,在AI飞速发展的时代,AI 智能体自主性已成为一个备受瞩目的焦点。 一方面,它能够为我们带来前所未有的创新应用,极大提升工作效率和生活便利性;另一方面,若不当使用,也可能引发一系列难以预料的风险。 随着大型语言模型(LLM)等前沿 AI 技术的飞速进步,AI 智能体的自主性不再是停留在科幻小说中的情节,它已逐渐走进现实,引起了大家的广泛关注和深入探讨。
7/29/2025 9:24:21 AM
肆零柒

突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star

港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。 该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。 论文标题:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation论文地址:::多智能体系统的「领域壁垒」随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。
6/17/2025 3:28:03 PM

Manus逼OpenAI开源智能体框架,网友:已从行业领导者变为跟随者

OpenAI又开源了,这次是一套智能体开发框架。 联网搜索、文件搜索、计算机使用(Computer Use),统统打包,GitHub 8小时上千星。 图片奥特曼认为其中的API是有史以来(并没有限定在OpenAI范围内)设计最完善、最实用的之一。
3/12/2025 11:34:35 AM
  • 1