GUI
LLM的关键转折:LAM,究竟是什么?
作者 | Bill Doerrfeld 编译 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)操作 Windows 程序、自动对账发票、预订航班和酒店——这些只是新一代大型语言模型(LLMs)为 AI 智能体带来的众多可能性中的几个。 研究人员将这一阶段的进化称为“大型行动模型(Large Action Models)”,简称 LAMs。 迄今为止,LLM 是无状态的——它们无法自行采取行动、适应环境或与工具交互。
6/25/2025 2:18:36 PM
云昭
Tsinghua Collaborates with MemSET Intelligence to Open Source! First Chinese APP Specializing in GUI Agent Covers AutoNavi, Bilibili, and Xiaohongshu
With the rapid development of artificial intelligence technology, intelligent interaction has become the new focus of mobile internet. Recently, the THUNLP Lab at Tsinghua University and Mianbi Intelligence jointly released a revolutionary open-source project - AgentCPM-GUI, which is the world's first open-source GUI (graphical user interface) Agent specifically optimized for Chinese apps. This project not only demonstrates the core strength of domestic AI technology but also provides new possibilities for the intelligent upgrade of the Android ecosystem.Technical Breakthrough: The World's First GUI Agent Specialized for Chinese Apps.
5/15/2025 10:01:57 AM
AI在线
清华携手面壁智能重磅开源!首款中文APP专精GUI Agent,覆盖高德、B站、小红书
随着人工智能技术的迅猛发展,智能化交互成为移动互联网的新焦点。 近日,清华大学THUNLP实验室与面壁智能联合发布了一款革命性的开源项目——AgentCPM-GUI,这是全球首个针对中文APP精细优化的开源GUI(图形用户界面)Agent。 该项目不仅展示了国产AI技术的硬核实力,还为安卓生态的智能化升级提供了全新可能。
5/14/2025 6:00:52 PM
AI在线
清华大学与面壁智能发布端侧GUI Agent:AgentCPM-GUI
近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。 该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出强大的GUI元素定位能力。 AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站**、**小红书**在内的**30多个主流中文APP**,能够精准识别和操作APP界面元素,满足多样化的用户需求。
5/14/2025 3:00:52 PM
AI在线
微软研究:API 代理速度更快,但 GUI 代理更灵活
近日,微软的研究团队对 API 代理和 GUI 代理进行了对比研究,发现这两种代理各有特点,可以根据不同需求进行合理选择。 API 代理通过可编程接口与软件进行交互,而 GUI 代理则模拟人类的操作方式,通过点击按钮和导航菜单来完成任务。 例如,若要安排一个活动,API 代理可能只需一次函数调用,而 GUI 代理则需要打开日历应用,逐步填写相关信息。
5/12/2025 10:01:12 AM
AI在线
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 / 电脑
科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。 项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。 而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。
10/29/2024 10:01:35 AM
故渊
让机器学习设计手机GUI,这合理么?
研究背景:图形用户界面(Graphical UserInterface,简称 GUI,又称图形用户接口),为用户和计算机桌面程序,手机类移动端软件,和在线网站提供了可视化的交互方式。设计优秀的GUI颜值在线且简洁易用,吸引大量忠实用户。但即便对经验丰富的GUI设计者,新App与GUI的创作过程也是非常困难且耗费时间的,例如交互流畅、通用、简洁、美观、风格连贯等与设计相关的规则和标准是设计者们需要遵循的。而且为了紧跟时代潮流,不断从其他的资源(如Dribbble)寻找最新最热的设计来获取灵感也为设计者们带来了额外巨大
6/23/2021 6:11:00 PM
特邀精选
- 1
资讯热榜
首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题
OpenAI豪赌5000亿美元估值神话:60亿股权大甩卖背后,GPT-5却遭用户冷遇
蚂蚁集团携手北医三院成立AI医疗联合实验室 打造专属AI就医助理
国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能
网易有道发布子曰教育大模型多款AI新品,定义教育AI应用能力L1-L5分级
摩根士丹利:AI 革命将为标准普尔 500 指数企业每年节省近 1 万亿美元
AI教父辛顿:人类需要AI成为“母亲”,李飞飞:反对!
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
论文
Anthropic
代码
训练
算法
Stable Diffusion
AI新词
芯片
LLM
蛋白质
腾讯
开发者
苹果
生成式
Claude
Agent
AI for Science
神经网络
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
百度
GPU
AI设计
华为
工具
大语言模型
搜索
RAG
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
伟达
视频生成
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用