超DeepEP两倍！无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈，专为Agent爆发设计

随着 ChatGPT、Gemini、DeepSeek-V3、Kimi-K2 等主流大模型纷纷采用混合专家架构（Mixture-of-Experts, MoE）及专家并行策略（Expert Parallelism, EP），MoE 技术已在产业应用中逐渐成为主流。与此同时，以代码智能体、Cursor 类对话式 IDE 为代表的新型应用，一方面显著推高了用户请求规模，另一方面大幅拉长了单次推理的上下文长度，两者均呈现出一个数量级以上的增长。在 MoE 架构下，这种变化不仅线性放大了计算开销，还显著增加了跨专家的通信与调度成本，使得整体系统压力接近一个数量级提升，并在规模化服务场景中进一步被放大。

随着 ChatGPT、Gemini、DeepSeek-V3、Kimi-K2 等主流大模型纷纷采用混合专家架构（Mixture-of-Experts, MoE）及专家并行策略（Expert Parallelism, EP），MoE 技术已在产业应用中逐渐成为主流。与此同时，以代码智能体、Cursor 类对话式 IDE 为代表的新型应用，一方面显著推高了用户请求规模，另一方面大幅拉长了单次推理的上下文长度，两者均呈现出一个数量级以上的增长。在 MoE 架构下，这种变化不仅线性放大了计算开销，还显著增加了跨专家的通信与调度成本，使得整体系统压力接近一个数量级提升，并在规模化服务场景中进一步被放大。

MoE 模型因其结构上的稀疏性与专家并行特性，天然引入了频繁且规模庞大的全局分布式数据交换。而当前主流通信库及解决方案（如 DeepEP）仍基于 “通信与数据布局解耦” 的传统设计假设，难以高效应对实际生产中的跨设备、非连续、动态重排的数据访问模式，在高并发、长上下文与大规模专家配置的场景下，DeepEP 性能已逐渐趋近瓶颈，直接制约了 MoE 大模型的持续落地、系统稳定扩展与经济性运行。

论文地址：https://www.arxiv.org/abs/2512.22036
开源地址：https://github.com/infinigence/FUSCO

基于此，无问芯穹联合清华大学、中关村学院、上海交大及南加州大学，面向 MoE 模型结构和 EP 并行策略场景，推出高效通信库 “FUSCO”。

这是一种全新的融合式通信优化路径：将通信过程与数据底层布局主动协同，在数据搬运的同时完成布局转换，从而彻底消除冗余的数据重排操作。

这一设计将融合优化的边界从传统的计算算子之间融合，拓展至通信与数据操作之间的跨层融合，揭示了大模型训练与推理中一个此前未被充分挖掘的优化新空间。在此基础上，FUSCO 可自动实现负载均衡与冗余通信消除，并在不同 GPU 架构与网络拓扑下保持良好的可移植性，为大规模模型的端到端执行提供了一种更具系统性的融合优化路径。

实验表明，相较于 NCCL 和 DeepSeek 的 DeepEP 通信库，FUSCO 的通信性能可最高分别提升 3.84 倍和 2.01 倍。且在实际部署场景中，随着并发请求数和文本长度（例如达到 2048K tokens）的增加，其性能优势将进一步扩大。这为基于 MoE 模型的推理、训练的各类 Agent 场景提供了有力支持。

背景 MoE 专家并行架构下的通信与数据重排瓶颈

在大规模 MoE 模型的训练和推理中，单个 GPU 往往无法承载完整模型权重或处理全部 token。因而系统通常引入专家并行（Expert Parallelism），将不同专家分布在多个 GPU 上，以提升计算吞吐并扩展模型容量。尽管该策略有效提升了可扩展性，但也引入了新的性能瓶颈：token 需要在不同专家所在的 GPU 之间进行跨设备的数据重排与通信，形成分布式数据重排（Distributed Data Shuffling）过程，其典型执行流程包括：

通信前的 token 重排：根据 token–expert 的映射关系确定目标 GPU，并将 token 按目标 GPU 的通信布局重新排列，以满足 All-to-All 的数据组织要求；
跨 GPU 的 All-to-All 通信：重排后的 token 通过 All-to-All 通信发送至对应专家所在的 GPU；
通信后的 token 重排：每个 GPU 根据其本地承载的专家集合，对接收到的 token 进一步按专家进行排列，并完成对应专家的计算；
镜像式的合并 (Combine) 过程：在专家计算完成后，系统按与上述过程相反的顺序，依次执行本地逆向重排、All-to-All 通信以及最终的 token 顺序恢复，以保证输出与原始 token 顺序一致。

传统集合通信库遵循 “通信与数据布局解耦” 的设计范式：通信被视为对连续数据块的被动搬运，而数据在模型执行过程中所固有的布局语义（如视图变换、维度重排与切片关系）通常被忽略。这一抽象虽然简化了接口，却在大模型训练与推理中引入了大量隐式的中间张量重排与内存拷贝，成为制约端到端效率的重要瓶颈。

随着专家并行规模的扩大，上述过程的开销呈上升趋势。训练和推理的吞吐虽然随更多设备的参与而提升，但分布式数据重排在端到端总延迟中所占比例总体上不断增加。

这一现象主要源于随着专家分布在更多设备上，token 在设备间的传输量增加，同时全局同步成本也随之上升。每个 token 都必须在参与 GPU 间交换和重排，这相对于计算增加了额外的延迟。尽管专家内部的前馈计算仍然高效，但在更高的专家并行度和更大集群规模下，分布式数据重排已成为端到端性能的重要瓶颈。

为量化这一过程的开销，我们进一步对一次通信前后的数据重排与通信本身进行了细致分析。以 32 MB 数据为例，使用 PyTorch 的 index_select 算子模拟本地重排操作，并分别在机内（NVLink）和跨机（RoCE）环境下，结合 NCCL 的 send/recv 原语测量通信延迟。

	机内 (NVLink)	跨机 (RoCE)
总时延	0.349	0.96
通信时延	0.109	0.72
重排时延	0.24	0.24
重排占比	68.8%	25%

结果显示，重排操作在总 shuffle 时间中的占比分别高达 68.8%（机内）和 25%（跨机）。这说明 MoE 中的数据移动瓶颈不仅来自网络带宽限制，还受限于内存绑定的数据重排操作。并且，随着互联效率不断提升，通信本身变得更快，若数据重排开销保持不变，其在总执行时间中的占比将更突出。

此外，传统的 All-to-All 通信对 token 冗余和网络层次缺乏感知。在实际 MoE 工作负载中，同一 token 可能被路由到同一节点上不同 GPU 的多个专家，但在当前通信实现中，这些重复 token 会被序列化发送多次，造成带宽浪费和通信效率下降。现有优化方案如 DeepEP 虽然引入了跨机去重，但高度依赖特定网络硬件，部署范围有限，且未消除通信前后的数据重排，在通用 MoE 场景中的优化效果仍有限。

FUSCO 设计解析如何让大规模的分布式数据交换既高效又轻量？

FUSCO 的核心思路在于认识到：数据重排本质上就是一次数据布局的变换，而通信本身已经定义了数据该如何被拆分、发送和放置。因此，与其在通信前后引入额外的布局调整，不如顺着通信过程本身来完成布局变换。

基于这一观察，我们提出了一种数据与通信协同设计的方法，在数据传输的过程中同步完成布局变换，从而避免将数据通信与数据重排变换分离执行的传统做法。每个数据段（LLM 中的 token）在传输的过程中即完成排列和发送，从而既减少了额外拷贝，也最大化利用了 GPU 和网络带宽。

融合重排的通信：让数据在传输中一步到位完成布局变换

为实现数据在传输过程中即完成重排，FUSCO 打破了将重排视为独立步骤的传统思路，从上到下协同设计通信接口和底层算子：接口层负责精确表达数据 “从哪里来、到哪里去” 的布局语义，而算子层则负责在一次通信执行路径中高效地落实这些语义。

通过将布局描述与通信执行紧密绑定，FUSCO 构建了一条从接口到算子的贯通路径，使数据重排不再是独立的前后处理，而是被自然地融合进通信过程本身。

（1）通信接口设计

在专家并行中，各个设备上的原始数据通常是一个大的连续张量，由多个 token 组成。经过 MoE 路由后，不同 token 可能被分配到不同的设备，而路由到同一设备的 token 往往在张量中呈离散分布，而非连续的一块。每个 token 的大小通常在 4KB 到 14KB 之间，需要发送到该设备上的不同专家。

所谓 “数据重排”，本质上是在通信前，将这些离散 token 按目标设备和对应专家进行组织，并在通信完成后将它们正确地放置到各自的目标位置。

为了简化讨论，先考虑两个设备之间的一次单向传输。为精确描述这些离散数据的布局，我们将通信数据抽象为一组逻辑段。每个段对应内存中一小段连续数据，FUSCO 用一个称为段描述符的数据结构记录其起始地址。在通信过程中，一端并不直接操作原始张量，而是根据连续的段描述符序列，从张量的对应位置读取或写入数据，从而实现对离散 token 的精确访问和操作。

在发送端，这个描述符序列规定了通信负载如何从源张量中被逐段读取；在接收端，对应的描述符序列则明确了每一段数据在目标内存中的落点。

基于上述段描述符序列的创新设计，FUSCO 以两个互补的通语实现其通信接口：

gather-send：发送端依据本地的段描述符序列，按顺序从多个不连续位置读取段数据并发起发送；
scatter-recv：接收端依据自身的段描述符序列，将接收到的段数据直接写入目标布局中的对应位置。

这两个原语在语义上是一一对应的：每一个逻辑段在发送端和接收端都有明确匹配的描述符，从而保证数据在端到端传输过程中被精确放置，无需任何额外的中间缓冲或后处理重排。

（2）高效通信算子

尽管前面通过描述信息已经可以精确表达 “哪些 token 从哪里来、到哪里去”，但一个更现实的问题随之而来：在引入细粒度重排语义之后，通信还能否保持原有的吞吐效率？

FUSCO 的答案是：通过一套流水线化的执行方式，将布局整理与数据传输紧密地绑定在一起。

在机内通信场景下，发送端和接收端位于同一台机器，FUSCO 直接使用 GPU 到 GPU 的点对点拷贝。关键在于，描述信息的解析被嵌入到拷贝路径之中：GPU 在执行数据拷贝的同时，按照描述信息从分散的位置读取数据，并直接写入目标布局对应的位置。整个过程中不会引入额外的中间缓冲或额外的内存遍历。

跨机通信则需要经过网卡，而要充分利用网络带宽，必须持续提供足够大的发送数据。为此，FUSCO 并不会把每个数据段单独进行一次发送，而是将多段数据组织成较大的发送单元，每个发送单元包含多个逻辑段。

FUSCO 跨机通信流水线执行路径

在此基础上，FUSCO 将跨机通信组织为一条清晰的流水线执行路径：GPU 作为生产者，按照描述信息依次收集数据、完成布局整理，并将结果写入发送缓冲区；网卡作为消费者，一旦发现缓冲区中有就绪的数据单元，便立即发起 RDMA 传输。

由于单个发送单元的网络传输时间通常长于 GPU 准备该单元所需的时间，GPU 侧的内存操作可以稳定地与网络传输重叠，使通信链路始终保持高利用率。

通过这种设计，数据重排不再是通信前后的附加步骤，而是被直接嵌入到一次点对点通信的执行过程中完成。在引入灵活重排能力的同时，FUSCO 依然能够维持与高性能通信库相当的带宽效率。

通信调度和策略：跨机优化与负载均衡的 token 传输

FUSCO 的通信调度优化围绕两种数据重排操作展开：gather-send 和 scatter-recv。其核心目标是在消除重排的基础上，减少跨机传输量并平衡各设备通信负载。

为此，系统会先生成一份详细的执行计划，将 MoE 的 token 路由信息转化为可直接执行的低层指令。计划中明确了每个 token 的来源、目标 GPU 以及目标节点的位置，使 gather-send 和 scatter-recv 能直接利用这些元数据，无需在通信前、通信中、通信后进行额外的数据重排操作。

FUSCO 通信调度策略

在生成执行计划时，FUSCO 首先考虑了跨节点通信的效率问题。直接将每个 token 发送到目标节点的所有 GPU 会导致重复传输。为解决这一问题，FUSCO 为每个发送 GPU 在每个目标节点指定一个 “转发 GPU”：当某个 GPU 需要向同一节点的多个 GPU 发送相同 token 时，转发 GPU 会先接收发送端的数据，然后通过节点内部高速链路（如 NVLink）将数据分发给该节点的其他 GPU。这样不仅减少了跨节点传输，也充分利用了节点内的高速网络，让数据流动更顺畅。

同时，FUSCO 还考虑了转发 GPU 的选择。如果总是集中在少数 GPU 上，容易形成网络热点。FUSCO 通过将转发 GPU 组织成通信组来解决这一问题，确保高负载 GPU 分散在不同组中，实现跨节点负载均衡。这样每块 GPU 都不会因数据过多而成为瓶颈，整个网络的利用率也更高。

总结来看，FUSCO 的通信调度策略主要通过三方面提升效率：

精确执行计划：每个 token 直接到达目标 GPU 的对应内存位置，无需额外重排。
分层转发：跨节点只传输一份，节点内快速分发，减少重复传输。
在线负载均衡：在运行时根据实际 MoE 路由流量动态构建通信组，高负载 GPU 均匀分布。

我们基于 NCCL 实现了 FUSCO，在保持与 NCCL 相同网络兼容性的同时，复用了其高效通信能力，让 FUSCO 可以专注于算法优化。FUSCO 为 MoE 层提供了简单直观的 dispatch/combine 接口，可无缝接入现有 LLM 训练和推理框架。

不同于 DeepEP 仅能在特定网络环境（ibgda, NVLink, RDMA）下工作，FUSCO 能在多种网络环境下高效运行，无需针对网络做额外调优。

简而言之，FUSCO 可以作为 MoE 框架中 AlltoAll 通信的高效解决方案，同时兼顾性能与易用性。

结果与分析 FUSCO 的性能与优势

通信性能：完全消除 MoE 模型通信数据重排开销，效率 2 倍优于 DeepEP

在应用上，与现有的通信库相比，FUSCO 的最大特点在于完全消除了 MoE 模型通信中的数据重排开销，并在此基础上实现跨节点 token 去重和节点内高速分发，从而显著提升通信效率。系统适配主流 MoE 训练和推理框架和 GPU 架构，在各种典型的 MoE 路由流量场景都能够稳定降低延迟和提升吞吐。

在量化评测中，我们构造了三种具有代表性的 MoE 通信流量配置进行测试：

第一种是真实推理流量，直接采用大模型推理过程中实际产生的 MoE 路由结果，能够反映真实场景下的通信特征；
第二种是单节点路由流量，即一个 token 被路由到的 topk 个 expert 都在同一节点上，此时跨节点只需要传输一份数据，主要考察系统对冗余跨节点通信的消除能力；
第三种是负载不均衡流量，不同 GPU 间通信量差异显著，用于模拟热点 GPU 和通信倾斜严重的极端情况，重点评估系统的负载均衡能力。

这三种配置均使用 64 张 GPU 进行性能测试，分别测试每卡文本长度 4K/8K/16K/32K 的情况，总文本长度最大可达 2048K。

真实通信数据重排负载下的性能对比（64 GPUs，文本长度可达 32K*64，下同）

每个 token 仅会被路由到一个设备上的多个 expert 下的性能对比

设备之间负载不均衡情况下的性能对比

实验结果表明，在上述三种典型流量配置下，FUSCO 相比 NCCL 和 DeepEP 均能取得更高的通信效率。相较于 NCCL 和 DeepSeek 的 DeepEP 通信库，FUSCO 的通信性能最高可分别提升 3.84 倍和 2.01 倍，而且文本长度越长加速越明显。

无论是在真实推理环境、跨节点通信最小化的场景，还是存在严重负载不均衡的情况下，FUSCO 都能稳定降低通信开销，为 MoE 模型的训练与推理提供更加高效、可靠的通信支持。

端到端性能：训练与推理效率全面提升，最高 1.39 倍优化

在全模型训练和推理中，FUSCO 同样展现出明显优势。我们在 64 张 GPU 上对 Qwen3-235B-A22B 和 DeepSeek-V3 两种代表性 MoE 模型进行了评测，涵盖模型单轮训练时间和推理首 token 响应时间。

FUSCO 带来的端到端训练与推理的性能提升

结果显示，在训练任务中，FUSCO 相较于 NCCL 性能最高提升 1.39 倍，相较于 DeepEP 性能最高提升 1.19 倍；在推理任务中，FUSCO 相较于 NCCL 性能最高提升 1.25 倍，相较于 DeepEP 性能最高提升 1.16 倍。且在实际部署中，模型规模越大，性能提升越显著。

总结

FUSCO 通过将 MoE 模型的 token 路由信息直接转化为可执行的 gather-send 与 scatter-recv 通信原语策略，彻底消除了传统通信前后的数据重排开销。

在多节点 64 GPU 测试中，相较于 NCCL 和 DeepEP，FUSCO 的通信性能分别提升了 3.84 倍和 2.01 倍，同时端到端性能增幅最高达 40%。

无问芯穹这一创新方案不仅为大规模 MoE 模型提供了可扩展、低成本的通信支持，为大规模 MoE 模型的通信优化提供了可验证的创新示范。更有力推动了面向 Agent 的硬件效率潜能的释放，加速智能体的规模化高效落地。

相关代码和使用示例现已开源，欢迎在实际项目中下载测试与应用。

开源地址：https://github.com/infinigence/FUSCO
论文链接：https://www.arxiv.org/abs/2512.22036

超DeepEP两倍！无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈，专为Agent爆发设计

相关资讯

基础设施进入 Agent 时代：无问芯穹的“蜂群式”尝试

5亿热钱砸向清华AI Infra明星：最大化算力效能筑造智能体基建

无问芯穹获近5亿元A+轮融资：加速构建Agentic AI基础设施