AI在线 AI在线

打造全球首个强化学习云平台,九章云极是如何做到的?

从 ChatGPT 引发的通用聊天机器人热潮,到如今正迅猛发展的智能体模型,AI 正在经历一次深刻的范式转变:从被动响应的「语言模型」,走向具备自主决策能力的「智能体」。 我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。 在这场转变中,强化学习(RL)正在重新登上舞台中央,成为驱动 AI 实现「感知-决策-行动」闭环乃至通用人工智能(AGI)的关键技术。

从 ChatGPT 引发的通用聊天机器人热潮,到如今正迅猛发展的智能体模型,AI 正在经历一次深刻的范式转变:从被动响应的「语言模型」,走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。

在这场转变中,强化学习(RL)正在重新登上舞台中央,成为驱动 AI 实现「感知-决策-行动」闭环乃至通用人工智能(AGI)的关键技术。

正如诺贝尔奖得主、DeepMind CEO Demis Hassabis 说的那样:「强化学习足以实现智能,因为这是所有哺乳动物(包括人类)的学习方式。」 强化学习之父、2024 年图灵奖得主 Richard Sutton 也在《经验时代》中写道:「通过构建强化学习的基础,并使其核心原则适应新时代的挑战,我们能够充分释放自主学习的潜力,为真正的超人(superhuman)智能铺平道路。」

然而,相比于预训练大模型,目前通常用于后训练大模型的强化学习存在自己独有的困难:不仅需要高频的数据交互和环境反馈,还要求大规模算力集群具备稳定、弹性的调度能力。而传统的云计算平台,大多仍以静态推理负载为主,难以适配强化学习训练中动态多阶段、资源高耦合的运行特性。

这一背景下,谁能率先打造出真正适配强化学习的大规模智能计算平台,谁就有机会在新一轮的 AI 基础设施竞争中占据高地。2025 年 6 月,九章云极正式发布业界首个工业级强化学习云平台 AgentiCTRL,这也是全球首个支持万卡级异构算力调度的强化学习基础设施平台

图片

AgentiCTRL 基于混合专家(MoE)架构,仅需极少代码即可完成 AI 智能体的训推流程,从而显著增强大模型推理能力。相比于传统强化学习方案,AgentiCTRL 可将端到端训练效率提升 500%,综合成本下降 60%。

图片

在这个云服务纷纷向「AI 云原生」转型的时代,九章云极率先跑通了强化学习大规模云化的全链路路径,可以说是为更进一步的「智能体原生云」树立了行业新范式。

为什么是九章云极?领先源自系统级重构

本质上讲, 强化学习是一个长期、动态、状态密集型的过程。要想训练一个能在现实世界中有效决策的智能体,所需的不止是简单的算力堆叠,而是一个涉及算力弹性、资源调度、策略反馈、任务编排、容错机制等多维系统设计的复杂工程。 

面对这一挑战,九章云极并未沿袭传统云平台「横向扩 GPU」的简单思路,而是从架构底层出发,对强化学习训练流程进行了系统性重构。AgentiCTRL 平台的推出,正是这一重构的成果。 

图片

这里,我们重点看看 AgentiCTRL 的一些核心亮点。

首先,AgentiCTRL 实现了强化学习训练流程的极致简化

过去,部署一个强化学习训练流程往往需要数十行脚本、复杂的资源配置和节点编排。而在 AgentiCTRL 上,用户仅需极少代码即可启动完整的训练-推理-回传闭环

图片

      代码演示

这背后,是九章云极对环境模拟、策略执行、奖励反馈等复杂机制的深度封装与抽象。对于算法工程师而言,这意味着开发效率的数倍提升;对于企业客户而言,则意味着强化学习的真正可用、可控、可复制。

其次,AgentiCTRL 率先将 Serverless 架构原生融入了 RL 工作负载的训练平台。

强化学习的计算需求高度不稳定:有的时间段 GPU 大量空转,有的时间段则需要瞬时扩容数百卡资源。传统的静态资源绑定方案,不仅浪费严重,也难以调度。AgentiCTRL 通过弹性算力编排,实现了资源的「按需即取、即用即还」,最大化资源利用率的同时,显著降低了训练成本。

更为关键的是,九章云极自研的异构算力操作系统与调度平台,让 AgentiCTRL 成为全球首个能稳定支持「万卡级」强化学习训练的平台。不论是高频交互带来的通信瓶颈,还是多节点分布式策略更新的同步难题,九章云极都在平台层实现了技术闭环。

这些能力也得到了实际验证。举个例子,使用 AgentiCTRL,九章云极针对颇具挑战性的 Computer Use 任务对基础模型 Qwen-VL-2.5-7B 进行了后训练,最终得到了智能体 Alaya-UI

在这个过程中,AgentiCTRL 表现强劲,不仅降低了 37% 的训练耗时并提升了 25% 的 GPU 利用率,而且所需的人工介入次数也大幅下降了 90%。整体上看,成本下降了 60%

图片

得到的 Alaya-UI 的性能也在基础模型的基础上大幅提升 —— 在 OSWorld 基准上,Alaya-UI 的任务完成率从 6.87% 跃升至 24.8%。

经过更多实验验证,AgentiCTRL 能将端到端训练效率提升 5 倍以上,而在同等任务规模下,其整体成本可下降 60%,堪称当前最具性价比的强化学习云平台

换句话说,九章云极不是在已有 AI 云平台之上「追加一个强化学习模块」,而是以强化学习为原生能力,重构了整个智能计算平台的架构与逻辑。

这正是九章云极能够走在行业前列的核心原因。

不止于平台  九章云极的智能基础设施战略布局

强化学习云平台只是表层,真正让九章云极在强化学习竞赛中跑在最前面的,是其对下一代 AI 云本质的前沿探索。

传统的云计算厂商,往往将 AI 能力作为「功能补丁」叠加在通用云之上,更多是在做资源分发和算力服务,更像是一种裸金属(bare metal)的供给模式。而九章云极的战略方向明确而清晰:强化学习不是一个云服务模块,而是未来 AI 云的操作系统级能力,是支撑智能体系统运行的调度中枢、学习引擎和演化机制。

可以说,九章云极前沿探索的核心是围绕智能体构建完整的原生云基础设施。这不仅包括支持强化学习的算力资源,更包括三层能力的同步建设:

  • 底层是软件定义的 AI 基础设施,其中包括异构算力资源、高性能分布式存储和高性能网络系统的统一调度与编排。

  • 中层是九章智算操作系统 Alaya NeW OS,是工作负载的抽象与调度逻辑层,其中包括 Serverless 架构 、AI 导向的数据中心架构、多 AIDC 训练架构、异构资源调度、 AI 原生 、分布式算网。

  • 上层则是九章智算云 Alaya NeW Cloud,其中包括大模型开发套件、大模型推理平台、强化学习云平台、弹性容器平台 VKS 和专享容器平台 DKS;它们共同组成了面向开发者、模型厂商、应用企业的 API 与工具链系统。

图片

实际上,九章智算云不仅是九章云极强化学习平台的算力底座,更是其智能基础设施战略的核心支点。在强化学习仍被视为高门槛科研专属的当下,九章智算云以「1 度算力」为度量单位,率先提出普惠化 AI 计算标准,从资源调度方式、价格模型到工作负载适配方式,全面对齐智能体时代的训练需求。

不同于传统云厂商依赖 GPU 售卖或按卡计费的裸金属逻辑,九章智算云提供了真正按使用量计价的 serverless 架构,这不仅降低了门槛,更实质性打通了「人人可用 AI」的最后一公里。

正如图灵奖得主、「Artificial Intellgence」这一技术术语的提出者约翰・麦卡锡(John McCarthy)曾说过的那样:算力应该像水电资源一样随用随取。现在,九章智算云正在实践这一愿景。

而在调度能力方面,九章智算云通过自主研发的异构算力操作系统与 AI-native 的资源管理系统,实现了弹性调度+异构支持+多租户隔离的完备能力,成功突破「秒级生成百万级 token 」的性能瓶颈,并且其 GPU 利用率甚至可超过 95%,总拥有成本(TCO)相比传统方案降低达 60%,形成了明显的「性能/价格比」优势。

不仅如此,九章智算云在产业赋能上的落地表现也已具备规模优势,当前已在政务、金融、通信、制造、能源、交通、生物医药等多个关键行业实现部署,并支撑多个 RL 模型及智能体系统的在线训练与推理任务。在国内市场同类平台中,其智能体训练任务承载能力和调度效率长期保持领先,稳居强化学习云领域第一梯队。 

正是在这些能力的加持下,九章云极才得以在强化学习的产业化路径上率先跑通「从训练引擎到产业部署」的全流程闭环,并以此为基础,构建起属于自己的 AI 云原生生态护城河。

看起来,九章云极的战略视野并不局限于细节的技术层面,而是放眼未来 AI 的基础设施主导权:在大模型标准趋于同质化的今天,谁能主导智能体运行的「训练-反馈-部署」闭环平台,谁就能在下一代 AI 生态中占据支点位置。而九章云极,已经拥有自己的独特优势。

顺带一提,为了加速这一战略落地,九章云极还启动了「AI-STAR 企业生态联盟」,并与赛富投资基金等多家产业机构联合设立了「AI-STAR 智算生态基金」,首期投入 1.8 亿元,期望吸引算法公司、开源社区、行业客户共同参与强化学习平台的生态建设。这不仅为 AgentiCTRL 拓展了丰富的应用场景,也为智能体应用在金融、工业、能源等高价值行业的规模化落地提供了实践基础。

图片

因此,AgentiCTRL 的发布并不是一个孤立事件,而是九章云极未来路线图中的关键一步。在这一逻辑下,平台能力、开发工具、生态伙伴、资本配置…… 正共同构成一个面向未来十年的智能计算战略。

强化学习云第一云!是做出来的

当强化学习成为智能体模型训练的核心引擎,决定下一轮 AI 基础设施竞争胜负的,很可能是「可用」与「可规模化」之间的距离。

九章云极用 AgentiCTRL 平台证明,强化学习云的成功落地绝不仅仅是一次算力堆叠或平台加法,而是一场从底层架构到运行逻辑的系统性重建:支持万卡级异构调度、Serverless 弹性架构、强化学习工作负载原生抽象…… 这些综合起来就不再只是简单的优化,而是范式跃迁。

从客户视角看,这种跃迁可以带来直接而确定性的价值回报:

  • 开发门槛显著降低:无需自建环境、编排节点、维护资源,RL 训练变得像调用 API 一样简单;

  • 训练效率大幅提升:端到端性能可提升 5 倍;

  • 成本结构全面重塑:资源调度更高效,综合成本最多可下降 60%,让 RL 真正进入性价比可控区间。

更重要的是,九章云极从一开始就不是只做「RL 工具链供应商」,而是在构建一个支持智能体运行的操作系统级云平台

在未来,强化学习不会是「少数人的科研特权」,而将成为 AI 系统中的常规能力组件。谁能将它从实验室拉入工程化生产环境,谁就掌握了创造未来的先机。而九章云极,已经走在了前面。

当智能体原生时代真正到来,我们可能会重新回头审视这场转变的起点。而那时,我们会看到,九章云极及其创造的 AgentiCTRL 或许正是它最早的铺路者。

相关资讯

通识+产业大模型,「Alaya元识」的赋能路径

2023 年 11 月,国家工业信息安全发展研究中心、工信部电子知识产权中心发布的《中国 AI 大模型创新和专利技术分析报告》显示,我国大模型专利申请总数已突破 4 万余件,大模型相关领域的创新日益活跃。相对于 “能做诗会画画” 的针对 to C 市场的大模型而言,面向 to B 市场的大模型如何深耕行业,充分了解行业知识,并且深入到行业客户的业务流程中,是形成行业壁垒或者说差异化竞争优势的关键。新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告 3.0》显示,大模型厂商在技术实力上呈现出百家争鸣的态势
11/22/2023 10:58:00 AM
新闻助手

九章云极DataCanvas Alaya NeW智算操作系统入选 “2024年度产品”

3月18日,“2024年度服务商评选”正式揭晓,九章云极DataCanvas公司核心产品DataCanvas Alaya NeW智算操作系统凭借卓越的技术创新力与行业标杆价值,成功入选“2024年度产品”。 这一荣誉不仅是对九章云极技术实力的高度认可,更彰显了Alaya NeW在推动AI算力生态高效协同、助力产业智能化转型中的关键作用。 以技术为刃,破解算力应用难题在全球数字经济迈向“高质共生”的新阶段,算力已成为驱动AI产业发展的核心引擎。
3/18/2025 6:41:00 PM
新闻助手

SenseTime leads the development of intelligent oil and gas future: Petro AI large model joint laboratory will be established

Recently, SenseTime, a leading artificial intelligence enterprise, has officially signed a strategic cooperation agreement with Shandong Dongming Petrochemical Group and Beijing Haoya Innovation Technology Co., Ltd. This move aims to jointly promote the innovation and development of artificial intelligence in the petrochemical industry, and they will also establish a joint laboratory for the petrochemical AI large model to help the oil and gas industry achieve comprehensive intelligent transformation.According to the agreement, the three parties will closely cooperate and jointly establish a joint laboratory for the petrochemical AI large model. The laboratory will focus on the entire process of production and operation management in the petrochemical industry.
6/17/2025 2:02:31 AM
AI在线
  • 1