WAIC-Day3: 谈谈Agent场景及Agent OS基础设施

TL;DR看到今年Agent和具身智能爆火, 是否还记得去年云栖大会吴妈的一段话:“我们认为AI最大的想象力绝对不是在手机屏幕上，AI最大的想象力是在通过渗透数字世界，接管数字世界，并改变物理世界”那个时候还没有MCP也没有Manus/Flowith, 而如今我们看到了一条清晰的Agent渗透数字世界，接管数字世界的路径, 同时也看到了具身智能逐渐改变物理世界的趋势...别问我Day2干嘛去了, 干了一些不能说的秘密~ 然后下午本来在当观众看展, 结果在公司的展台站了一会儿, 就变成站台小哥讲了2小时...对于今年另一个热点, 那些各种各样所谓的“超节点”方案, 大概的背景和分析前些年其实都有了, 标准上的争议, 实现方案的差异很多. 国产方案 vs 国外UALink/SUE一堆... 实际上我想说的是ScaleUp本身的定义是不清晰的,所以超节点本身的技术设计上要么是欠缺考虑的, 要么是Over Engineering的.

TL;DR

看到今年Agent和具身智能爆火, 是否还记得去年云栖大会吴妈的一段话:

“我们认为AI最大的想象力绝对不是在手机屏幕上，AI最大的想象力是在通过渗透数字世界，接管数字世界，并改变物理世界”

那个时候还没有MCP也没有Manus/Flowith, 而如今我们看到了一条清晰的Agent渗透数字世界，接管数字世界的路径, 同时也看到了具身智能逐渐改变物理世界的趋势...

别问我Day2干嘛去了, 干了一些不能说的秘密~ 然后下午本来在当观众看展, 结果在公司的展台站了一会儿, 就变成站台小哥讲了2小时...

对于今年另一个热点, 那些各种各样所谓的“超节点”方案, 大概的背景和分析前些年其实都有了, 标准上的争议, 实现方案的差异很多. 国产方案 vs 国外UALink/SUE一堆... 实际上我想说的是ScaleUp本身的定义是不清晰的,所以超节点本身的技术设计上要么是欠缺考虑的, 要么是Over Engineering的. 还是另一句话Memory Semantic ScaleOut算不算定义中的ScaleUP? 其实核心问题还是类似于网络中的DCN和DCI的区别, 要有一些巧妙的做法.

回到正题, 第三天主要是参加了启明创投的一个会, 从投资者的视角再看了一遍整个AI行业有些收获. 然后去看了一些Agent和具身智能相关的展览, 例如Flowith下午参加了阿里云无影事业部举办的一个AgentOS技术与场景创新论坛, 相比于AWS AgentCore的各种零散组件. 无影的AgentOS抽象更加完善一些。

我们先来谈谈Agent落地过程中的一些难题, 再来阐述一下Agent OS的设计原则.

本文仅代表个人观点, 与作者任职的机构无关

1. Agent落地的一些难题

前段时间测试各种Code工具, 发现一些问题, 例如模型产生一些错误的修改希望回退, 但是暂时创建的工程又没有git. 或者是手工修改了一些代码, 然后几轮模型调用后遇到一些问题需要做一些类似于cherry pick的事情. 还有一个原来以为是梗, 但是“我有一个朋友”真遇到的. 在做一些测试的时候代码执行了(rm . ), 导致项目代码全丢的场景...

除了代码以外, 还有一些Browser-Use/Computer-Use的场景, 这些都需要Agent执行点击等操作, 如果使用工作电脑处理, 势必在等待Agent执行任务时, 自己的电脑无法使用. 而且还有很多场景都需要一些高并发的处理来节约时间.

另一个场景是在一些强化学习,特别是具身智能的一些场景. 我们需要对环境交互进行大量的渲染, 例如Nvidia Issac Sim这样的平台. 涉及到环境重置或者一些状态回溯的场景需要处理.

虽然Manus带火了e2b, 但是距离真正的Agent执行环境还有很多需要考虑的因素... 例如一些并发场景中的数据一致性处理, 数据的安全性, 外部工具和数据的访问鉴权, 统一身份认证..复杂程度如同举办一场奥运

图片

而这些实质上这些难题逐个去解决已经构成了一个操作系统的基本要素: 用户界面/进程调度/数据持久化/标准的API接口....

前段时间谈了一下《谈谈Agentic AI对Infra的需求》, 大概也介绍了一下AWS的AgentCore.

图片

正如当年的阿里云神龙和AWS Nitro拉开了云基础设施处理器的序幕(我比较反感DPU这种言之无物的词), 而如今在Agent的平台上两家又先后同时发布. 但相对于AWS繁杂的AgentCore组件, 无影AgentBay提供了开箱即用的Agent云基础设施

图片

2. AgentOS是什么?

我记得两年前在内部还在和献涛讨论LLMOS的概念以及云基础设施如何向LLMOS演进, 当时的概念中大概只有一些简单的Tool Use和外部存储(例如RAG等...)

图片

但是在过去一年多大模型生态快速演进的同时, 其实也带来了更多的思考, 伴随着这些思考构建了完善的Agent OS概念.

图片

作为一个操作系统的内核, 提供了完善的安全隔离机制, 同时也针对Agent执行提供了多种沙箱环境, 而比较重要的一点是, 给大模型装上手(MCP), 并且给大模型更灵活的使用工具的能力(SDK), 并且给它眼睛鼻子耳朵(ASP).

另一方面则是整个系统多Agent运行的协调能力, 需要一个统一的持久化层. 不光是Agent2Agent的共享Context, 底层的沙箱同样也需要数据共享.

偷偷的说, 像Coreweave和Oracle这样的GPU云厂商以及国内的一些GPU算力作坊可能会在Agent时代面临极大的短板

当我们通过大模型提高效率的时候, 不光是模型本身的并行运算, 同时对于模型操作的数字世界也需要并行, 例如推理时多个任务并行, 另一方面是训练场景中的需求. 通常它需要几秒钟的时间打开数万个VM...大量存储/通信并发的I/O, 伴随着巨大的互联网访问带宽需求和多地域的全球化部署能力... 而无影AgentBay借助于阿里云全球的云基础设施, 几乎全部做到了...

图片

其实我们也可以注意到Musk在前段时间也发布了一条消息, 新的Agentic AI时代已经到来, 而您只需要在现有的训练框架下接入这样一个高性能的虚拟化平台即可.

图片

3. 谈谈无影AgentBay

虽然已经有一些类似于e2b的沙箱环境, 或者是一些函数计算的平台可以运行代码. 而AWS为什么要提供基于MicroVM的Agent Runtime? 其实更多的就在Computer-Use的场景. 例如我们常用的桌面端Windows操作系统中调用各种App, 在函数计算场景中就有很多局限性. 下面是一个无影AgentBay控制windows上的钉钉创建日程的演示.

WAIC-Day3: 谈谈Agent场景及Agent OS基础设施

另一方面很多和生活相关的App都在移动端, 当然我们也可以把大模型接入到手机端.. 试想当你通过Siri/小爱同学呼唤大模型帮你预订行程时, 碰着手机等它一个个调用App订酒店/订机票/订出租车的时候, 微信突然弹出一个重要的消息, 或者还有别的任务要用手机时怎么办呢? 是不是一些mobile-use的场景就出来了. 无影借助于云手机成熟的技术构建了Mobile-Use的场景

WAIC-Day3: 谈谈Agent场景及Agent OS基础设施