AI在线 AI在线

清华携手面壁智能重磅开源!首款中文APP专精GUI Agent,覆盖高德、B站、小红书

随着人工智能技术的迅猛发展,智能化交互成为移动互联网的新焦点。 近日,清华大学THUNLP实验室与面壁智能联合发布了一款革命性的开源项目——AgentCPM-GUI,这是全球首个针对中文APP精细优化的开源GUI(图形用户界面)Agent。 该项目不仅展示了国产AI技术的硬核实力,还为安卓生态的智能化升级提供了全新可能。

随着人工智能技术的迅猛发展,智能化交互成为移动互联网的新焦点。近日,清华大学THUNLP实验室与面壁智能联合发布了一款革命性的开源项目——AgentCPM-GUI,这是全球首个针对中文APP精细优化的开源GUI(图形用户界面)Agent。该项目不仅展示了国产AI技术的硬核实力,还为安卓生态的智能化升级提供了全新可能。

image.png

模型地址:https://huggingface.co/openbmb/AgentCPM-GUI

技术突破:首个中文APP专精GUI Agent

AgentCPM-GUI基于面壁智能的MiniCPM-V模型构建,总参数量达8B(80亿)。该模型以手机屏幕图像作为输入,能够精准识别界面元素并自动执行用户指令。相比传统的通用Agent,AgentCPM-GUI针对中文APP进行了深度优化,覆盖包括高德地图、大众点评、哔哩哔哩、小红书在内的30余个主流中文应用,展现了卓越的本地化适配能力。

image.png

据AIbase了解,该Agent在界面元素定位和任务执行上表现出色。例如,在演示场景中,AgentCPM-GUI能够快速打开哔哩哔哩并检查特定UP主是否发布新视频,操作流畅且精准。这一功能的实现,得益于其对中文APP界面逻辑的深刻理解和高效的算法设计。

效率革命:平均动作长度仅9.7个Token

在端侧推理效率方面,AgentCPM-GUI同样表现亮眼。通过先进的模型压缩技术,该Agent将平均动作长度缩短至9.7个Token,显著降低了计算资源占用。这意味着即使在普通安卓设备上,AgentCPM-GUI也能实现快速响应和流畅运行,为用户带来接近原生应用的交互体验。

AIbase认为,这一效率提升不仅降低了开发者和用户的硬件门槛,还为AgentCPM-GUI在更多消费电子设备上的广泛部署奠定了基础。无论是智能手机、平板,还是其他智能终端,AgentCPM-GUI都有望成为智能化交互的核心引擎。

开源赋能:推动安卓生态智能化升级

作为一款完全开源的项目,AgentCPM-GUI的发布标志着清华大学与面壁智能对AI技术普惠化的坚定承诺。开发团队表示,AgentCPM-GUI的代码和相关文档已公开,开发者可以自由访问并基于此进行二次开发。这一举措将极大降低中文APP智能化交互的开发成本,助力更多中小型企业加入智能生态建设。

AIbase注意到,AgentCPM-GUI的开源还得到了业内广泛关注。业内人士指出,该项目不仅填补了中文GUI Agent领域的空白,还为全球安卓生态的智能化发展提供了宝贵参考。未来,随着更多开发者的参与,AgentCPM-GUI有望推动高德地图、大众点评等主流APP的交互体验迈上新台阶。

应用前景:从导航到社交,智能化无处不在

AgentCPM-GUI的出现,为中文APP的智能化应用开辟了广阔空间。在导航场景中,用户可以通过语音指令让AgentCPM-GUI自动操作高德地图规划路线;在社交场景中,Agent可快速浏览小红书笔记或哔哩哔哩视频,精准提取用户所需信息;在生活服务领域,大众点评的餐厅推荐和预订也能通过Agent实现一键操作。

AIbase预测,随着AgentCPM-GUI的普及,中文APP的用户体验将迎来质的飞跃。无论是提升操作效率,还是优化个性化服务,这款Agent都将成为连接用户与应用的智能桥梁。

国产AI的里程碑式突破

作为AI领域的专业媒体,AIbase认为,AgentCPM-GUI的发布不仅是清华大学与面壁智能在技术研发上的重大突破,也是国产AI迈向全球舞台的重要一步。其针对中文APP的精细优化和高效端侧推理能力,展现了中国AI企业在本地化场景中的独特优势。

相关资讯

清华大学与面壁智能发布端侧GUI Agent:AgentCPM-GUI

近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。 该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出强大的GUI元素定位能力。 AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站**、**小红书**在内的**30多个主流中文APP**,能够精准识别和操作APP界面元素,满足多样化的用户需求。
5/14/2025 3:00:52 PM
AI在线

Tsinghua Collaborates with MemSET Intelligence to Open Source! First Chinese APP Specializing in GUI Agent Covers AutoNavi, Bilibili, and Xiaohongshu

With the rapid development of artificial intelligence technology, intelligent interaction has become the new focus of mobile internet. Recently, the THUNLP Lab at Tsinghua University and Mianbi Intelligence jointly released a revolutionary open-source project - AgentCPM-GUI, which is the world's first open-source GUI (graphical user interface) Agent specifically optimized for Chinese apps. This project not only demonstrates the core strength of domestic AI technology but also provides new possibilities for the intelligent upgrade of the Android ecosystem.Technical Breakthrough: The World's First GUI Agent Specialized for Chinese Apps.
5/15/2025 10:01:57 AM
AI在线

鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文第一作者马欣贝是上海交通大学计算机系四年级博士生,研究方向为自主智能体,推理,以及大模型的可解释性和知识编辑。该工作由上海交通大学与 Meta 共同完成。论文题目:Caution fo
9/2/2024 2:30:00 PM
机器之心
  • 1