从1920TPS到2400TPS，华为云Tokens服务全面接入384超节点

8 月 27 日，在第四届 828 B2B 企业节开幕式上，华为云宣布其 Tokens 服务全面接入 CloudMatrix384 超节点，通过 xDeepServe 架构创新，单芯片最高可实现 2400TPS、50msTPOT 的超高吞吐、低时延的性能，超过业界水平。发挥 “大杂烩” 优势，以系统能力打造先进算力过去 18 个月，中国 AI 算力需求呈现指数级增长。数据显示，2024 年初中国日均 Token 的消耗量为 1000 亿，截至今年 6 月底，日均 Token 消耗量已突破 30 万亿，1 年半的时间增长了 300 多倍，反映了我国人工智能应用规模快速增长，也对算力基础设施的需求提出了更大的挑战。

8 月 27 日，在第四届 828 B2B 企业节开幕式上，华为云宣布其 Tokens 服务全面接入 CloudMatrix384 超节点，通过 xDeepServe 架构创新，单芯片最高可实现 2400TPS、50msTPOT 的超高吞吐、低时延的性能，超过业界水平。

发挥 “大杂烩” 优势，以系统能力打造先进算力

过去 18 个月，中国 AI 算力需求呈现指数级增长。数据显示，2024 年初中国日均 Token 的消耗量为 1000 亿，截至今年 6 月底，日均 Token 消耗量已突破 30 万亿，1 年半的时间增长了 300 多倍，反映了我国人工智能应用规模快速增长，也对算力基础设施的需求提出了更大的挑战。

在以往按卡时计费的基础上，今年 3 月，华为云正式推出了基于 MaaS 的 Tokens 服务。针对不同应用、不同场景的性能和时延要求，还提供了在线版、进线版、离线版乃至尊享版等多种服务规格，为大模型、Agent 智能体等 AI 工具提供了更为灵活、便捷、低成本的先进算力。

而这一次，华为云的 Tokens 服务正式接入 CloudMatrix384，并通过 384 原生的 xDeepServe 框架再次实现了吞吐量的突破，从年初的 1920TPS 提升至 2400TPS，TPOT 仅为 50ms。

从1920TPS到2400TPS，华为云Tokens服务全面接入384超节点

大算力的构建不是单点突破，而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新，充分依托了华为的 “大杂烩” 能力。

首先，CloudMatrix384 超节点以全新的计算架构创新，突破性能瓶颈，构筑稳固澎湃的算力根基； CANN 昇腾硬件使能，优化算子与高效通信策略，让云端的算力能够以最高效的方式被调用和组合；EMS 弹性内存存储打破 AI 内存墙，突破性地实现 “以存强算”，彻底释放了每一颗芯片的算力；xDeepServe 分布式推理框架则以极致分离架构 Transfomerless 让超节点释放出更高效算力。

“拆掉” Transformer，xDeepServe 全面激发算力潜能

作为 CloudMatrix384 超节点的原生服务，xDeepServe 以 Transformerless 的极致分离架构，把 MoE 大模型拆成可独立伸缩的 Attention、FFN、Expert 三个微模块，相当于在一台 CloudMatrix384 上把 “大模型” 拆成 “积木”，并分派到不同的 NPU 上同步处理任务。之后，再用基于内存语义的微秒级 XCCL 通信库与 FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的 LLM 服务平台，即 Tokens 的 “超高速流水线”。通过 xDeepServe 不断调优，最终实现了从非超节点单卡吞吐 600tokens/s 至超节点单卡吞吐 2400tokens/s 的提升。

作为硬件加速计算的中间层，CANN 包含多个算子库和和 XCCL 这种高性能通信库等组件，共同支撑 AI 模型的高效运行。其中，XCCL 作为专为超节点上的大语言模型（LLM）服务而量身打造的高性能通信库，能够充分发挥 CloudMatrix384 扩展后的 UB 互联架构（UB fabric）的全部潜力，为 Transformerless 的全面分离奠定了带宽与时延双重硬底座。

而作为被重构的 “去中心” 式分布式引擎，FlowServe 把 CloudMatrix384 切成完全自治的 DP 小组，每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈，完全自给自足，做到千卡并发也不 “拥堵”。

目前，xDeepServe 已实现 MA 分离，而下一步，将把 Attention、MoE、Decode 全部改成自由流动的数据流，并把同样的拼图方法复制到多台超节点，让推理吞吐像铺轨一样线性延伸，最终或将视线吞吐量的更大突破，让每块 NPU 都高效运作，芯片永不排队，推理永不塞车。

聚焦主流大模型，不断提升模型性能

目前，华为云 MaaS 服务已支持 DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan 等主流大模型及 versatile、Dify、扣子等主流 Agent 平台。

华为云积累了大量模型性能优化、效果调优的技术和能力，从而实现 “源于开源，高于开源”，让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说，在轻微损失画质的情况下，通过 Int8 量化、旋转位置编码融合算子等方式，在在华为云 MaaS 平台实现了 2 倍于业界主流平台的出图速度，最大尺寸支持 2K×2K。而在文生视频大模型上，不仅通过量化方式来提速，还通过通算并行等方式，降低延迟与显存占用，大幅提升视频生成速度，相较于友商实现了 3.5 倍的性能提升。华为云 Tokens 服务在性能、模型适配、效果调优方面的基础，也让更多企业能够快速开发和构建 AI Agent。

而在应用层，华为云已与超过 100 家伙伴携手深入行业场景，共建丰富的 Agent，在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题，让企业更便捷地拥抱 AI 创新，加速智能化。

如基于 MaaS 平台推出的今日人才数智员工解决方案，集成了先进的自然语言处理、机器学习和深度学习技术，能实现与用户的智能交互和任务处理，显著提升服务效率与客户满意度；而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能，实现政企办公智能化转型。

以 Token 为动力的智能社会已经到来，而华为云将以系统级创新能力和全新的 Tokens 服务构筑先进算力，助力各行各业加速落地 AI。

从1920TPS到2400TPS，华为云Tokens服务全面接入384超节点

相关资讯

华为云董理斌：做难事解难题，盘古大模型以“智”重塑千行万业

硅基流动 x 华为云推出基于昇腾云的 DeepSeek R1&V3 推理服务

硅基流动×华为云联合推出基于昇腾云的DeepSeek R1&V3推理服务