AI在线 AI在线

人人都能炼专属Agent,上海交大开源端侧Agent全栈工具链,真实场景性能超GPT-5!

打开手机,让 AI Agent 自动帮你完成订外卖、订酒店、网上购物的琐碎任务,这正成为智能手机交互的新范式。 一个能自主处理大部分日常任务的个人专属智能体,正在从科幻走进现实。 然而,通往 “解放双手” 的最后一公里却并不好走。
图片

打开手机,让 AI Agent 自动帮你完成订外卖、订酒店、网上购物的琐碎任务,这正成为智能手机交互的新范式。

一个能自主处理大部分日常任务的个人专属智能体,正在从科幻走进现实。

然而,通往 “解放双手” 的最后一公里却并不好走。如何高效地训练和在手机端部署 Agent 模型,长期以来似乎都是少数大厂的 “自留地”。从高质量操作数据的获取,到模型的训练与适配,再到移动端 APP 的优化,重重门槛将绝大多数开发者和普通用户挡在门外,也极大地限制了移动端 Agent 的生态发展。

就在刚刚,这一局面迎来了新的破局者。

来自上海交通大学 IPADS 实验室的团队,正式开源了一套名为 MobiAgent 的移动端智能体 “全家桶”。

图片
  • 论文地址: https://arxiv.org/abs/2509.00531

  • AgentRR 论文:https://arxiv.org/abs/2505.17716

  • 项目仓库: https://github.com/IPADS-SAI/MobiAgent

  • 模型:https://huggingface.co/IPADS-SAI/collections

  • APP:https://github.com/IPADS-SAI/MobiAgent/releases/download/v1.0/Mobiagent.apk

这套框架,首次将从 0 到 1 构建手机 Agent 的全流程完整地向所有用户开放。这意味着,从收集手机操作轨迹数据开始,到训练出一个能听懂自然语言指令、帮你处理日常事务的专属 Agent,再到最终将它部署在自己的手机上,现在,人人都能上手 DIY

当然,光能 “炼” 还不够,性能必须能打。为了验证 MobiAgent 的真实能力,研究团队直接在国内 Top 20 的 App 上进行了实测。结果显示,7B 规模的 MobiAgent 模型,在任务平均完成分上,不仅超越了 GPT-5、Gemini 2.5 Pro 等一众顶级闭源大模型,也优于目前最强的同规模开源 GUI Agent 模型。

除了 Agent 能力之外,团队还为 Agent 设计了一个独特的 “潜记忆加速器”。面对点外卖、查地图这类高频重复操作,MobiAgent 能够 “举一反三”,通过学习历史操作来简化决策,靠 “肌肉记忆” 完成 Agent 任务,最终将端到端的任务性能提升了 2-3 倍。这样一套集 “数据捕获、模型训练、推理加速、自动评测” 于一体的四位一体框架,可以说,彻底打通了移动智能体从开发到落地的 “最后一公里”。

这,或许才是普通人真正想要的 Agent。那么,MobiAgent 究竟是如何做到的?人人都能炼专属Agent,上海交大开源端侧Agent全栈工具链,真实场景性能超GPT-5!

Agent 养成全攻略:三步走

要让 AI 学会玩手机,首先得让它看懂人是怎么操作的。MobiAgent 的第一大核心,就是贡献了一套 AI 辅助的敏捷数据收集 “流水线”

过去,给 AI 准备 “教材”(标注数据)又贵又慢。现在,MobiAgent 用一个轻量级小工具,就能记录下人类在手机上的所有点击、滑动、输入等操作轨迹。对于一些简单的任务,这一录制过程甚至可以完全交给大模型完成,进一步提高了数据收集的效率。

图片

      MobiAgent数据收集与自进化流程

但只有操作还不够,AI 得理解 “为什么” 这么做。于是,团队使用通用的 VLM 模型(例如 gemini-2.5-pro),让它对着操作记录,“脑补” 出每一步的思考过程和逻辑,自动生成高质量的 “带思路” 的训练数据。最后,也是最重要的一步,这些数据会经过一个自动化 “精炼流水线”,调整数据的难易平衡比例、输入任务描述、历史信息长度等等,让训练出的 Agent 模型具有更强的泛化能力。

有了高质量的教材,下一步就是训练。MobiAgent 的 "大脑"MobiMind,被设计成了一个分工明确的 “三人小组”:

  • Planner(规划师): 负责理解复杂任务,进行拆解。

  • Decider(决策者): 看着当前手机屏幕,决定下一步干啥。

  • Grounder(执行者): 负责把 “点搜索按钮” 这种指令,精准定位到屏幕上的坐标并点击。

这种 “各司其职” 的架构,让模型训练起来更高效,能力也更强。

让 Agent 拥有 “肌肉记忆”,速度飙升 3 倍

光聪明还不够,反应慢也是硬伤。你肯定不想让 Agent 帮你买杯咖啡,结果思考了半分钟。为此,MobiAgent 团队祭出了第二个大杀器:AgentRR(Agent Record&Replay)加速框架。这个框架的核心思想,就跟我们人类的 “肌肉记忆” 一样:对于重复做过的事,直接凭经验搞定,不用再过一遍大脑

图片

      AgentRR系统架构

AgentRR 会把智能体执行过的任务轨迹,通过树的形式记录在一个叫 ActTree 的结构里。当接到一个新任务时,一个超轻量的 “潜意识”(Latent Memory Model)会迅速判断:

这个任务我是不是做过类似的?前几步是不是可以照搬?

比如,无论是 “搜附近的火锅店” 还是 “搜附近的电影院”,点开地图 App、点搜索框这两步都是完全一样的。AgentRR 就能直接 “复用” 这段操作,跳过大模型的思考过程,从而大幅提升效率。效果有多好?在模拟真实用户使用习惯(80% 请求集中在 20% 任务)的测试中,动作复用率高达 60%-85%。反映在实际任务上,就是 2 到 3 倍的性能提升。

图片

      不同请求分布下,AgentRR 的动作复用率

真实场景大比拼:谁是 「手机操作之王」?

是骡子是马,拉出来遛遛。为了公平地评判各大模型的真实能力,团队还专门打造一个更贴近现实的移动端智能体评测基准:MobiFlow。这个基准会基于任务的一个个关键节点,也就是 “里程碑”,对在动态 GUI 环境中执行任务的 Agent 进行精确打分,避免了 “不是满分,就是零分” 的单一评判标准,并且覆盖了社交、影音、购物、旅行、外卖等多个领域的国产主流 App。

图片

      MobiFlow智能体评测基准

最终的评测结果,MobiAgent(MobiMind-Decider-7B + MobiMind-Grounder-3B 的组合)在绝大多数 App 上都取得了最高分,尤其是在购物、外卖这类复杂任务上,优势非常明显。相比之下,像 GPT 和 Gemini 这样的大模型,虽然也能完成一些任务,但有时会 “走捷径”,比如把所有要求一股脑全塞进搜索框,依赖 App 自身的 AI 搜索能力。这种 “偷懒” 的做法一旦遇到不支持 AI 搜索的 App,完成率就大幅下降。更重要的是,MobiAgent 在所有测试中都能正确终止任务,而 GPT-5 在 11 个 App 上都出现了 “无限循环” 卡住的问题。

图片图片图片

总结

MobiAgent 的出现,不仅在性能上树立了新的标杆,更重要的是,它通过开源整个技术栈,极大地降低了定制化、私有化移动智能体的门槛。从日常应用的 Agent 开发,到每个人的个性化专属助理,想象空间被彻底打开。

或许,那个 “能动口就不动手” 的智能移动时代,就快到来了。

项目成员介绍

MobiAgent核心开发团队主要由上海交通大学IPADS实验室(并行与分布式系统研究所)的端侧智能体研究小组的本科生和硕士生,以及John班的实习生组成。主要指导教师为上海交通大学人工智能学院助理教授冯二虎。

相关资讯

告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生

本文一作赵海,上海交通大学计算机学院长聘教授、博士生导师,上海交通大学通用人工智能(AGI)研究所所长。 研究兴趣:自然语言处理、人工智能和大模型。 据 MIT 主办的世界大学计算机学科排行榜 csrankings 数据统计,上海交通大学计算机学科排名国内第三,赵海教授在其中的 AI 和 NLP 方向的论文贡献度第一,占整个交大标准发表总量 1/4。
8/13/2025 5:50:00 PM
机器之心

上海交大团队利用深度学习进行运动评估,促进脑瘫早期筛查

编辑 | 白菜叶Prechtl 全身运动评估 (GMA) 因其在评估神经系统发育完整性和预测运动功能障碍方面的作用而日益得到认可,特别是在脑瘫 (CP) 等疾病中。然而,对训练有素的专业人员的需求,阻碍了一些国家采用 GMA 作为早期筛查工具。在最新的研究中,上海交通大学的研究人员提出了一种基于深度学习的运动评估模型(MAM),该模型结合了婴儿视频和基本特征,旨在在烦躁运动(FM)阶段实现 GMA 自动化。MAM 表现出强大的性能,在外部验证期间实现了 0.967 的曲线下面积 (AUC)。重要的是,它严格遵循 G
12/15/2023 3:59:00 PM
ScienceAI

大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费巨量的计算资源和数据,因而预训练模型的参数也正成为各大机构重点保护的核心竞争力和资产。然而,不同于传统的软件知识产权保护可以通过比对源代码来确认是否存在代码盗用,对预训练模型参数盗用的判断存在以下两方面的新问题:1) 预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。2) 更重要的是,预训练模型的输出和参数都会随着 SFT、RLHF、continue pretraining 等下游处理步骤而变化。这使得无
2/2/2024 5:18:00 PM
机器之心
  • 1