AI在线 AI在线

312条轨迹助力241%性能提升,上交大与SII开源电脑智能体引领新潮流

在电脑智能体(Computer Use Agent)领域,最近有一个激动人心的进展。 上海交通大学与 SII 的研究团队,借助仅312条人类标注的操作轨迹,成功训练出了名为 PC Agent-E 的新一代开源电脑智能体,其性能提升高达241%,超越了著名的 Claude3.7Sonnet,成为 Windows 系统上的新一代最优模型。 自从 Anthropic 推出 Claude Computer Use 以来,电脑智能体的发展一直备受关注。

在电脑智能体(Computer Use Agent)领域,最近有一个激动人心的进展。上海交通大学与 SII 的研究团队,借助仅312条人类标注的操作轨迹,成功训练出了名为 PC Agent-E 的新一代开源电脑智能体,其性能提升高达241%,超越了著名的 Claude3.7Sonnet,成为 Windows 系统上的新一代最优模型。

自从 Anthropic 推出 Claude Computer Use 以来,电脑智能体的发展一直备受关注。OpenAI 也相继发布了 Operator,通过强化学习技术提升电脑智能体的能力。然而,业界普遍认为,要想达到这样的水平,需要大量的轨迹数据和复杂的强化学习算法。面对这种观点,上海交通大学和 SII 的团队用实际成果反驳了这一说法:只需少量的高质量数据,便能激发智能体的潜力。

image.png

这项研究的关键在于如何有效利用人类的操作轨迹。研究团队仅用了两名研究者一天的时间,通过开发的工具 PC Tracker,收集到了312条真实的操作轨迹。这些轨迹包含任务描述、屏幕截图以及详细的键盘和鼠标操作记录,确保了数据的准确性。在这之后,研究团队还为这些轨迹进行了 “思维链补全”,即为每个动作提供了背后的思考过程,使得数据更加完整。

为了进一步提升模型的性能,团队引入了 “轨迹增强” 技术。通过使用 Claude3.7Sonnet,研究人员为每一步的操作合成了多个合理的动作决策,这样不仅增加了轨迹数据的多样性,也显著提高了训练的效率。最终,PC Agent-E 在 WindowsAgentArena-V2的测试中表现出色,超越了 Claude3.7Sonnet 的 “extended thinking” 模式。

image.png

这项研究的成果显示,使用少量高质量的数据即可实现强大的智能体训练,不再需要海量的标注数据。这为未来更智能的数字代理的发展指明了方向,团队也认为,通过提高轨迹数据的质量,可以有效降低数据需求,推动智能体的自主性提升。

论文地址:https://arxiv.org/abs/2505.13909

代码地址:https://github.com/GAIR-NLP/PC-Agent-E

模型地址:https://huggingface.co/henryhe0123/PC-Agent-E

数据地址:https://huggingface.co/datasets/henryhe0123/PC-Agent-E

相关资讯

​微软支持的 AI 模型颠覆飓风预测,速度与成本双双优于传统方法

近日,科学家开发出了一种名为 “Aurora” 的机器学习模型,它在热带气旋轨迹预测方面表现优于官方机构,并且速度更快、成本更低。 Aurora 是由微软、宾夕法尼亚大学及其他机构的研究人员共同研发的基础模型,旨在提升地球系统预测的速度和准确性,涵盖空气质量、海洋波动、热带气旋轨迹以及高分辨率天气等领域。 图源备注:图片由AI生成,图片授权服务商MidjourneyAurora 的联合作者、宾夕法尼亚大学机械工程及应用力学副教授巴黎・佩尔迪卡里斯(Paris Perdikaris)表示,Aurora 类似于大型神经网络,能够从过去的地球物理数据中学习,预测复杂的物理过程,而不再依赖传统的物理方程。
5/22/2025 11:00:55 AM
AI在线

JUST技术:提升基于GPS轨迹的路网推测精确度

路网数据对于城市中的很多应用,比如车载导航和线路优化等,都非常重要。传统的道路数据采集方法依赖于采集车,消耗大量的人力物力。随着GPS设备的普及,海量轨迹数据在城市里产生,使我们能够用轨迹数据去生成路网。这个问题在近十年中已经有了广泛的研究,但是其中很多方法的精确度(precision)并不高,特别是上下道路,平行道路等地方。由于轨迹数据在城市内并不是均匀分布的,对于那些车辆频繁通行的地方,我们有没有办法进一步提高这些区域路网推测的精确度呢?
4/7/2021 10:54:00 AM
京东科技开发者

RoLAP 实验室|基于凸凸凸的工业臂柔性规划系统

大界成立的RoLAP实验室(RoboticPlus Laboratory for Autonomy and Perception),由中科院博士后、加州理工物理学博士、大界首席科学家周诚喆领衔,聚集了一批专业的硕博团队,致力于研究工业机器人在智能制造场景下的视觉感知(眼)、运动规划(手)、场景理解(大脑)的协同闭环系统。本文将基于RoLAP实验室的研究成果,为各位读者深度解析机械臂运动规划的关键技术。一. 背景介绍随着科学技术的发展,机器人技术正在被广泛应用到各种结构化的场景,比如3C消费电子和汽车工厂等标准化制造
6/17/2022 2:39:00 PM
新闻助手
  • 1