AI在线 AI在线

WAIC-Day3: 谈谈Agent场景及Agent OS基础设施

TL;DR看到今年Agent和具身智能爆火, 是否还记得去年云栖大会吴妈的一段话:“我们认为AI最大的想象力绝对不是在手机屏幕上,AI最大的想象力是在通过渗透数字世界,接管数字世界,并改变物理世界”那个时候还没有MCP也没有Manus/Flowith, 而如今我们看到了一条清晰的Agent渗透数字世界,接管数字世界的路径, 同时也看到了具身智能逐渐改变物理世界的趋势...别问我Day2干嘛去了, 干了一些不能说的秘密~ 然后下午本来在当观众看展, 结果在公司的展台站了一会儿, 就变成站台小哥讲了2小时...对于今年另一个热点, 那些各种各样所谓的“超节点”方案, 大概的背景和分析前些年其实都有了, 标准上的争议, 实现方案的差异很多. 国产方案 vs 国外UALink/SUE一堆... 实际上我想说的是ScaleUp本身的定义是不清晰的,所以超节点本身的技术设计上要么是欠缺考虑的, 要么是Over Engineering的.

TL;DR

看到今年Agent和具身智能爆火, 是否还记得去年云栖大会吴妈的一段话:

“我们认为AI最大的想象力绝对不是在手机屏幕上,AI最大的想象力是在通过渗透数字世界,接管数字世界,并改变物理世界”

那个时候还没有MCP也没有Manus/Flowith, 而如今我们看到了一条清晰的Agent渗透数字世界,接管数字世界的路径, 同时也看到了具身智能逐渐改变物理世界的趋势...

别问我Day2干嘛去了, 干了一些不能说的秘密~ 然后下午本来在当观众看展, 结果在公司的展台站了一会儿, 就变成站台小哥讲了2小时...

对于今年另一个热点, 那些各种各样所谓的“超节点”方案, 大概的背景和分析前些年其实都有了, 标准上的争议, 实现方案的差异很多. 国产方案 vs 国外UALink/SUE一堆... 实际上我想说的是ScaleUp本身的定义是不清晰的,所以超节点本身的技术设计上要么是欠缺考虑的, 要么是Over Engineering的. 还是另一句话Memory Semantic ScaleOut算不算定义中的ScaleUP? 其实核心问题还是类似于网络中的DCN和DCI的区别, 要有一些巧妙的做法.

回到正题, 第三天主要是参加了启明创投的一个会, 从投资者的视角再看了一遍整个AI行业有些收获. 然后去看了一些Agent和具身智能相关的展览, 例如Flowith下午参加了阿里云无影事业部举办的一个AgentOS技术与场景创新论坛, 相比于AWS AgentCore的各种零散组件. 无影的AgentOS抽象更加完善一些。

图片

我们先来谈谈Agent落地过程中的一些难题, 再来阐述一下Agent OS的设计原则.

本文仅代表个人观点, 与作者任职的机构无关

1. Agent落地的一些难题

前段时间测试各种Code工具, 发现一些问题, 例如模型产生一些错误的修改希望回退, 但是暂时创建的工程又没有git. 或者是手工修改了一些代码, 然后几轮模型调用后遇到一些问题需要做一些类似于cherry pick的事情. 还有一个原来以为是梗, 但是“我有一个朋友”真遇到的. 在做一些测试的时候代码执行了(rm . ), 导致项目代码全丢的场景...

除了代码以外, 还有一些Browser-Use/Computer-Use的场景, 这些都需要Agent执行点击等操作, 如果使用工作电脑处理, 势必在等待Agent执行任务时, 自己的电脑无法使用. 而且还有很多场景都需要一些高并发的处理来节约时间.

另一个场景是在一些强化学习,特别是具身智能的一些场景. 我们需要对环境交互进行大量的渲染, 例如Nvidia Issac Sim这样的平台. 涉及到环境重置或者一些状态回溯的场景需要处理.

虽然Manus带火了e2b, 但是距离真正的Agent执行环境还有很多需要考虑的因素... 例如一些并发场景中的数据一致性处理, 数据的安全性, 外部工具和数据的访问鉴权, 统一身份认证..复杂程度如同举办一场奥运

图片图片

而这些实质上这些难题逐个去解决已经构成了一个操作系统的基本要素: 用户界面/进程调度/数据持久化/标准的API接口....

前段时间谈了一下《谈谈Agentic AI对Infra的需求》, 大概也介绍了一下AWS的AgentCore.

图片图片

正如当年的阿里云神龙和AWS Nitro拉开了云基础设施处理器的序幕(我比较反感DPU这种言之无物的词), 而如今在Agent的平台上两家又先后同时发布. 但相对于AWS繁杂的AgentCore组件, 无影AgentBay提供了开箱即用的Agent云基础设施

图片图片

2. AgentOS是什么?

我记得两年前在内部还在和献涛讨论LLMOS的概念以及云基础设施如何向LLMOS演进, 当时的概念中大概只有一些简单的Tool Use和外部存储(例如RAG等...)

图片图片

但是在过去一年多大模型生态快速演进的同时, 其实也带来了更多的思考, 伴随着这些思考构建了完善的Agent OS概念.

图片图片

作为一个操作系统的内核, 提供了完善的安全隔离机制, 同时也针对Agent执行提供了多种沙箱环境, 而比较重要的一点是, 给大模型装上手(MCP), 并且给大模型更灵活的使用工具的能力(SDK), 并且给它眼睛鼻子耳朵(ASP).

另一方面则是整个系统多Agent运行的协调能力, 需要一个统一的持久化层. 不光是Agent2Agent的共享Context, 底层的沙箱同样也需要数据共享.

偷偷的说, 像Coreweave和Oracle这样的GPU云厂商以及国内的一些GPU算力作坊可能会在Agent时代面临极大的短板

当我们通过大模型提高效率的时候, 不光是模型本身的并行运算, 同时对于模型操作的数字世界也需要并行, 例如推理时多个任务并行, 另一方面是训练场景中的需求. 通常它需要几秒钟的时间打开数万个VM...大量存储/通信并发的I/O, 伴随着巨大的互联网访问带宽需求和多地域的全球化部署能力...  而无影AgentBay借助于阿里云全球的云基础设施, 几乎全部做到了...

图片图片

其实我们也可以注意到Musk在前段时间也发布了一条消息, 新的Agentic AI时代已经到来, 而您只需要在现有的训练框架下接入这样一个高性能的虚拟化平台即可.

图片图片

3. 谈谈无影AgentBay

虽然已经有一些类似于e2b的沙箱环境, 或者是一些函数计算的平台可以运行代码. 而AWS为什么要提供基于MicroVM的Agent Runtime? 其实更多的就在Computer-Use的场景. 例如我们常用的桌面端Windows操作系统中调用各种App, 在函数计算场景中就有很多局限性.  下面是一个无影AgentBay控制windows上的钉钉创建日程的演示.

WAIC-Day3: 谈谈Agent场景及Agent OS基础设施

另一方面很多和生活相关的App都在移动端, 当然我们也可以把大模型接入到手机端.. 试想当你通过Siri/小爱同学呼唤大模型帮你预订行程时, 碰着手机等它一个个调用App订酒店/订机票/订出租车的时候, 微信突然弹出一个重要的消息, 或者还有别的任务要用手机时怎么办呢? 是不是一些mobile-use的场景就出来了. 无影借助于云手机成熟的技术构建了Mobile-Use的场景

WAIC-Day3: 谈谈Agent场景及Agent OS基础设施

另一个非常重要的场景是在整个链路中的跨平台数据漫游, 也就是存算分离并为整个Agent执行环境提供高可用高性能的存储架构, 有了这样一个统一的存储架构, Memory / Context Engineering, 甚至是未来一些Experience的处理都有了一个统一的存储接口.

图片图片

有一个更加开放性的问题, AgentBay Context是否也同时能够承载一些大模型推理平台的KVCache, 提高Cache命中率并降低推理成本呢? 我认为是可行的.

另一个更重要的问题也被AgentBay Context解决了,  在这样一个沙箱环境里, 产生的数据再也不用担心被模型的误操作而丢失. 

另一方面有一个非常棒的功能是, 我们的API调用情况, 无影AgentBay都会记录, 这些操作经验的数据集对于后续的强化学习任务也是一份非常好的数据源. 例如前段时间通过Kimi K2调用无影进行code agent的日志

图片图片

而无影AgentBay最大的一个创新是在MCP的基础上, 构建了灵活的统一的AgentBay SDK[1].支持Python/Golang/TypeScript等多种语言, 通过它获得更强大的控制能力

图片图片

另一方面, 作为一个云平台, 用户当然可以全流程自定义自己的的工具链, 例如镜像/MCP工具/安全隔离的网络策略等, 同时对整个计算实例生命周期也可以很好的进行管理

图片图片

其中镜像制作和发布的功能非常简单, 完全可视化的操作, 安装软件构建MCP工具都变得非常容易. 同时还具有完善的镜像管理能力

图片图片

4. 谈谈具身智能Agent场景

nvidia有一个Isaac Sim的仿真平台, 用于机器人的仿真训练数据合成和模型训练

图片图片

无影AgentBay也充分考虑到了这一个巨大的场景, 支持RTX 5880工作站级的GPU用于调用Physx进行机器人训练环境的渲染, 并且通过虚拟化技术满足多个场景的需求

图片图片

5. 小结

前段时间我已经在邀测平台上进行了很多测试, 例如让无影AgentBay构建一些金融量化分析的Agent

图片图片

后面几个月我还会持续的使用它构建更大规模的全量市场分析并进一步引入一些代数视角下的Multi-Agent System, 然后构成一个系列, 也欢迎大家一起来用, 一起开发更强大的SDK.

参考资料

[1] AgentBay SDK: https://github.com/aliyun/wuying-agentbay-sdk

相关资讯

来了!十个构建Agent的大模型应用框架

随着生成式人工智能(GenAI)的蓬勃发展,基于大型模型的应用已经悄然融入我们的日常工作和生活,它们在诸多领域中显著提升了生产力和工作效率。 为了更便捷地构建这些基于大模型的应用程序,开源社区和产品开发者们正以前所未有的速度进行创新。 在这些创新中,面向智能体(Agent)的应用,即所谓的Agentic AI,已经崭露头角,成为近年来生成式AI系统中最具潜力的明星。
3/24/2025 10:55:18 AM
曹洪伟

微软宣布 4400 亿日元历史最大在日单笔投资,并为三百万人提供 AI 技能培训

感谢微软今日宣布未来两年在日投资 4400 亿日元(IT之家备注:当前约 209.88 亿元人民币),加强当地的 AI 和云基础设施建设。这笔资金是微软历史上最大的在日单笔投资,使得微软对日本算力基础设施的投资承诺翻倍。这些投资将大幅提升微软在日的基础设施处理能力,为日本提供最先进的 AI GPU 算力资源,推动日本企业的 AI 运用和数字转型。微软还承诺在未来 3 年向包括临时工在内的 300 万日本人提供 AI 技能培训。该培训计划将面向开发人员、学生、各类企业和组织员工开放。微软亚洲研究院将在东京建立新的研究
4/10/2024 4:02:53 PM
溯波(实习)

AI 让公益事半功倍,第四届 Light・技术公益创造营开幕

社会的痛点就是公益的起点。
2/28/2024 2:51:00 PM
机器之心
  • 1