GUI

LLM的关键转折：LAM，究竟是什么？

LLM的关键转折：LAM，究竟是什么？

作者 | Bill Doerrfeld 编译 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）操作 Windows 程序、自动对账发票、预订航班和酒店——这些只是新一代大型语言模型（LLMs）为 AI 智能体带来的众多可能性中的几个。研究人员将这一阶段的进化称为“大型行动模型（Large Action Models）”，简称 LAMs。迄今为止，LLM 是无状态的——它们无法自行采取行动、适应环境或与工具交互。

6/25/2025 2:18:36 PM 云昭

Tsinghua Collaborates with MemSET Intelligence to Open Source! First Chinese APP Specializing in GUI Agent Covers AutoNavi, Bilibili, and Xiaohongshu

Tsinghua Collaborates with MemSET Intelligence to Open Source! First Chinese APP Specializing in GUI Agent Covers AutoNavi, Bilibili, and Xiaohongshu

With the rapid development of artificial intelligence technology, intelligent interaction has become the new focus of mobile internet. Recently, the THUNLP Lab at Tsinghua University and Mianbi Intelligence jointly released a revolutionary open-source project - AgentCPM-GUI, which is the world's first open-source GUI (graphical user interface) Agent specifically optimized for Chinese apps. This project not only demonstrates the core strength of domestic AI technology but also provides new possibilities for the intelligent upgrade of the Android ecosystem.Technical Breakthrough: The World's First GUI Agent Specialized for Chinese Apps.

5/15/2025 10:01:57 AM AI在线

清华携手面壁智能重磅开源！首款中文APP专精GUI Agent，覆盖高德、B站、小红书

清华携手面壁智能重磅开源！首款中文APP专精GUI Agent，覆盖高德、B站、小红书

随着人工智能技术的迅猛发展，智能化交互成为移动互联网的新焦点。近日，清华大学THUNLP实验室与面壁智能联合发布了一款革命性的开源项目——AgentCPM-GUI，这是全球首个针对中文APP精细优化的开源GUI（图形用户界面）Agent。该项目不仅展示了国产AI技术的硬核实力，还为安卓生态的智能化升级提供了全新可能。

5/14/2025 6:00:52 PM AI在线

清华大学与面壁智能发布端侧GUI Agent:AgentCPM-GUI

清华大学与面壁智能发布端侧GUI Agent:AgentCPM-GUI

近日，清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**，为移动设备的人机交互带来全新突破。该智能体基于**MiniCPM-V**模型构建，总参数量仅**8B**，以手机屏幕图像为输入，支持中英文操作，可自动执行用户提出的任务，展现出强大的GUI元素定位能力。 AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站**、**小红书**在内的**30多个主流中文APP**，能够精准识别和操作APP界面元素，满足多样化的用户需求。

5/14/2025 3:00:52 PM AI在线

微软研究：API 代理速度更快，但 GUI 代理更灵活

微软研究：API 代理速度更快，但 GUI 代理更灵活

近日，微软的研究团队对 API 代理和 GUI 代理进行了对比研究，发现这两种代理各有特点，可以根据不同需求进行合理选择。 API 代理通过可编程接口与软件进行交互，而 GUI 代理则模拟人类的操作方式，通过点击按钮和导航菜单来完成任务。例如，若要安排一个活动，API 代理可能只需一次函数调用，而 GUI 代理则需要打开日历应用，逐步填写相关信息。

5/12/2025 10:01:12 AM AI在线

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导致动作定位不准确。

10/29/2024 10:01:35 AM 故渊

让机器学习设计手机GUI，这合理么？

让机器学习设计手机GUI，这合理么？

研究背景：图形用户界面（Graphical UserInterface，简称 GUI，又称图形用户接口），为用户和计算机桌面程序，手机类移动端软件，和在线网站提供了可视化的交互方式。设计优秀的GUI颜值在线且简洁易用，吸引大量忠实用户。但即便对经验丰富的GUI设计者，新App与GUI的创作过程也是非常困难且耗费时间的，例如交互流畅、通用、简洁、美观、风格连贯等与设计相关的规则和标准是设计者们需要遵循的。而且为了紧跟时代潮流，不断从其他的资源（如Dribbble）寻找最新最热的设计来获取灵感也为设计者们带来了额外巨大

6/23/2021 6:11:00 PM 特邀精选

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉