AI在线 AI在线

清华大学与面壁智能发布端侧GUI Agent:AgentCPM-GUI

近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。 该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出强大的GUI元素定位能力。 AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站**、**小红书**在内的**30多个主流中文APP**,能够精准识别和操作APP界面元素,满足多样化的用户需求。

近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出强大的GUI元素定位能力。

AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站**、**小红书**在内的**30多个主流中文APP**,能够精准识别和操作APP界面元素,满足多样化的用户需求。无论是导航、点餐还是内容浏览,AgentCPM-GUI都能高效完成任务,极大提升了用户体验。

值得一提的是,该模型通过**RFT(推理前思考)**技术增强了规划推理能力。在执行用户指令前,AgentCPM-GUI会先进行推理思考,生成更准确的动作序列,从而提升任务执行的成功率和可靠性。这一技术的应用使其在端侧AI领域表现尤为突出。

作为一款轻量级高性能模型,AgentCPM-GUI在手机等端侧设备上运行流畅,展现了清华大学THUNLP实验室与面壁智能在AI技术上的深厚实力。未来,这款GUI Agent有望进一步推动端侧AI的普及与应用,助力智能设备迈向更高效的交互时代。

相关资讯

清华携手面壁智能重磅开源!首款中文APP专精GUI Agent,覆盖高德、B站、小红书

随着人工智能技术的迅猛发展,智能化交互成为移动互联网的新焦点。 近日,清华大学THUNLP实验室与面壁智能联合发布了一款革命性的开源项目——AgentCPM-GUI,这是全球首个针对中文APP精细优化的开源GUI(图形用户界面)Agent。 该项目不仅展示了国产AI技术的硬核实力,还为安卓生态的智能化升级提供了全新可能。
5/14/2025 6:00:52 PM
AI在线

Tsinghua Collaborates with MemSET Intelligence to Open Source! First Chinese APP Specializing in GUI Agent Covers AutoNavi, Bilibili, and Xiaohongshu

With the rapid development of artificial intelligence technology, intelligent interaction has become the new focus of mobile internet. Recently, the THUNLP Lab at Tsinghua University and Mianbi Intelligence jointly released a revolutionary open-source project - AgentCPM-GUI, which is the world's first open-source GUI (graphical user interface) Agent specifically optimized for Chinese apps. This project not only demonstrates the core strength of domestic AI technology but also provides new possibilities for the intelligent upgrade of the Android ecosystem.Technical Breakthrough: The World's First GUI Agent Specialized for Chinese Apps.
5/15/2025 10:01:57 AM
AI在线

智能座舱迎来革命性升级!斑马智行元神 AI 大模型问鼎全球

在2025世界人工智能大会上,斑马智行联合通义和高通,重磅推出了端侧多模态大模型解决方案,标志着汽车智能座舱进入了主动智能时代。 这一创新方案基于高通8397平台,能够实现智能座舱90% 的 “感知 - 决策 - 执行” 闭环,大幅提升了车内交互体验。 这款名为元神 AI 的大模型,不仅仅是一个被动的指令接受者,它的升级让它成为了真正的对话参与者。
7/28/2025 9:52:10 AM
AI在线
  • 1