AI在线 AI在线

LLM的关键转折:LAM,究竟是什么?

作者 | Bill Doerrfeld 编译 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)操作 Windows 程序、自动对账发票、预订航班和酒店——这些只是新一代大型语言模型(LLMs)为 AI 智能体带来的众多可能性中的几个。 研究人员将这一阶段的进化称为“大型行动模型(Large Action Models)”,简称 LAMs。 迄今为止,LLM 是无状态的——它们无法自行采取行动、适应环境或与工具交互。

作者 | Bill Doerrfeld 

编译 | 云昭

出品 | 51CTO技术栈(微信号:blog51cto)

操作 Windows 程序、自动对账发票、预订航班和酒店——这些只是新一代大型语言模型(LLMs)为 AI 智能体带来的众多可能性中的几个。研究人员将这一阶段的进化称为“大型行动模型(Large Action Models)”,简称 LAMs。

迄今为止,LLM 是无状态的——它们无法自行采取行动、适应环境或与工具交互。但 LAMs 的出现,正在使智能体能够执行更复杂的操作,甚至能在图形用户界面(GUI)中自主导航。

IT 服务公司 Xebia 的集团董事总经理 Preetpal Singh 在接受采访时表示:“LAM 是 AI 系统发展中的一个关键转折点,它标志着 AI 从被动应答者向自主操作者的跃迁。”

实际上,LAM 正在将行业从“生成式 AI”引导向“智能体 AI”。

xtype(一家 ServiceNow 多实例管理平台公司)的产品营销负责人 Scott Willson 也表示:“AI 一直需要一个‘执行引擎’,LAM 正是生成式 AI 对这一需求的回应。”

1.什么是大型行动模型?

LAM 是在 LLM 基础上训练而成的,专注于“行动”任务,并具备真实的外部数据与系统连接能力。这意味着,LAM 驱动的智能体远比普通 LLM 更强大——后者仅限于推理、检索和文本生成。

MinIO(对象存储系统)的 AI 解决方案工程师 Keith Pijanowski 表示:“当你在讨论 LAM,其实你就是在谈智能体。LAM 实际上是智能体的大脑。”

与传统 LLM 面向通用用途、训练数据来源广泛不同,LAM 更注重任务导向。Imagine Learning(教育平台)的 AI 事务副总裁 Jason Fournier 指出:“LAM 是将 LLM 微调,使其在推荐达成目标的行动方面表现更优。”

目前的一些 LAM 实践案例包括:

  • 微软研究人员开发了可在 Office 中执行任务的 LAM(来源:The Decoder);
  • Orby 推出了一款用于企业任务自动化的 LAM;
  • CogAgent 是一个开源模型,设计用于在 GUI 中执行任务;
  • 加州大学伯克利分校发布了 Gorilla,一个在 RAG(检索增强生成)基础上扩展运行时、执行行动的微调模型。

目前学界仍在积极研究 LAM,而业界对其定义尚未统一。尽管名称五花八门,许多被称为“可调用工具的 LLM”或“智能体框架”的项目,本质上都属于 LAM 范畴。

例如,OpenAI 最近在其 Responses API 中新增了“计算机操作”功能,允许开发者引导 AI 执行点击、滚动等屏幕上的操作。虽然 OpenAI 没有使用 LAM 这一术语,但这一功能正体现了“AI 行动力”的整体趋势。

微软研究人员在去年12月发布的一篇关于 LAM 的研究摘要中写道:“人们对超越语言助手、能执行现实任务的智能体系统需求正在快速增长。”而今年5月更新的另一项研究则描绘了一种“以 LLM 为大脑的新一代 GUI 智能体”。

2.LAM 如何推动智能体发展?

在传统的企业自动化中,人们依赖于“机器人流程自动化(RPA)”,通过模拟点击、滚动、复制文本等用户行为来完成重复任务。而 LAM 正在走得更远。

不同于依赖硬编码逻辑的 RPA,基于 LAM 的智能体可以在运行时收集信息,甚至是那些在流程设计时尚不存在的数据。Pijanowski 表示:“这更像是一种动态业务逻辑。”

Willson 则认为 LAM 比 RPA “强太多了”:“……”

Willson 认为 LAM 的能力已经远超 RPA:“它不是根据固定脚本去做事,而是实时推理,适应不同场景。RPA 是静态的,而 LAM 是动态的。”

这使得基于 LAM 的智能体比传统系统更能适应变化的业务环境和用户需求。例如,它们可以:

  • 在操作过程中根据最新上下文调整执行策略;
  • 主动判断执行哪个工具或 API;
  • 处理无法预料的异常情况。

3.实现 LAM 的关键构件

目前的 LAM 系统,往往由以下几个关键构件组成:

  • 多模态感知能力:能读取屏幕、识别按钮、理解图形界面。
  • 动作规划与执行模块:基于任务目标生成一系列操作指令,比如点击、键入、滚动等。
  • 实时环境反馈机制:能根据执行结果即时修正或重新规划步骤。
  • 与外部系统的连接能力:调用 API、读写数据库、发送请求等。

这些能力使 LAM 成为真正意义上的“AI 操作员”,可以辅助甚至替代人类在桌面环境、网页、企业内部系统等界面中执行任务。

4.谁在推进 LAM?

目前,除了微软、OpenAI 和一些学术机构之外,还有越来越多创业公司和开源社区也在推动 LAM 的实践。比如:

  • AutoGPT 和 AgentGPT 的演化,虽然主要聚焦在文本流程自动化,但也逐步开始探索 GUI 操作;
  • Orby 和 Cognosys 等公司,则专注于企业环境下的 LAM 商业化落地;
  • GitHub 上涌现出大量“Auto Agent Framework”,正在尝试将 LAM 和 GUI 控制统一集成。

尽管这一领域仍在早期阶段,但它可能比“仅生成文本”的 AI 革命更具现实影响力,因为它直接进入了人类工作流的执行层。

5.从语言模型到行动模型,AI 的下一步是什么?

我们曾用 LLM 革命性地解决了“理解”和“表达”的问题,现在 LAM 正试图解决“执行”的问题。

就像 Keith Pijanowski 所说:“语言模型是 AI 的大脑,而行动模型才是 AI 的双手和双脚。”

随着更多 GUI-aware、具备系统访问能力的 LAM 被开发出来,我们将看到 AI 真正开始动手做事——从写邮件、处理表格,到登录系统、分析报表、执行指令。

也许未来,企业的每个部门都会配有一个“数字助手”,不再只是回答你问题,而是真正替你完成任务。

相关资讯

小模型编排,让 1+1>2,企业工作更灵活,效率更高

选自 Salesforce AI Research作者:Silvio Savarese编译:大盘鸡善用小模型,发挥大作用。AI 的使用越来越广泛,不局限于个人对于它的使用。在企业中,也越来越流行使用 AI 完善工作流程、推进工作进度。但不得不提到的是,功能更加强大的往往是规模较大的大模型,这会造成企业部署上的难题。Silvio Savarese 发文针对这一问题谈到了自己的想法,模型并不是越大越好,小模型组合起来能更好地处理工作内容。以下是机器之心对原文进行的不改变原意的翻译与整理。原文地址:,我写了很多关于我称之
10/24/2023 5:38:00 PM
机器之能

无直接数据可用,AI怎么学会「干活」?微软团队揭秘AI从语言到行动的进化之路

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/21/2025 5:04:00 PM
机器之心

让机器学习设计手机GUI,这合理么?

研究背景:图形用户界面(Graphical UserInterface,简称 GUI,又称图形用户接口),为用户和计算机桌面程序,手机类移动端软件,和在线网站提供了可视化的交互方式。设计优秀的GUI颜值在线且简洁易用,吸引大量忠实用户。但即便对经验丰富的GUI设计者,新App与GUI的创作过程也是非常困难且耗费时间的,例如交互流畅、通用、简洁、美观、风格连贯等与设计相关的规则和标准是设计者们需要遵循的。而且为了紧跟时代潮流,不断从其他的资源(如Dribbble)寻找最新最热的设计来获取灵感也为设计者们带来了额外巨大
6/23/2021 6:11:00 PM
特邀精选
  • 1