故障率降低100倍，微软突破性技术破解AI算力浪费大难题

在AI数据中心中，网络链路的高故障率一直是制约算力释放的关键困局。传统光纤链路故障率是铜缆的100倍以上，10万GPU规模的AI集群甚至每6-12小时就会出现链路故障，导致同步性极强的AI训练任务中断，造成巨大算力浪费。在9月葡萄牙召开的“ACM SIGCOMM 2025”大会上，微软研究院公布了突破性技术MOSAIC，凭借宽通道慢速率架构与microLEDs创新组合，一举将链路故障率降低100倍。

在AI数据中心中，网络链路的高故障率一直是制约算力释放的关键困局。传统光纤链路故障率是铜缆的100倍以上，10万GPU规模的AI集群甚至每6-12小时就会出现链路故障，导致同步性极强的AI训练任务中断，造成巨大算力浪费。

在9月葡萄牙召开的“ACM SIGCOMM 2025”大会上，微软研究院公布了突破性技术MOSAIC，凭借宽通道慢速率架构与microLEDs创新组合，一举将链路故障率降低100倍。

这不仅破解了AI数据中心的链路故障难题，还同步实现50米长距传输，为铜缆10倍、最高68%功耗降低，可无缝兼容现有网络协议与硬件，为大规模AI集群的稳定运行与高效扩容提供了关键技术支撑。

在当今AI数据中心网络中，传统的链路技术面临着一个难以调和的矛盾：铜缆链路虽然能效高且可靠，但传输距离极短，通常不超过 2 米，限制了其在单个机架内的使用；而光纤链路虽然能够跨越数十米的距离，却以高功耗和低可靠性为代价。

MOSAIC 的核心架构与传统的“窄且快”（Narrow-and-Fast，NaF）架构截然不同。传统的 NaF 架构依赖于少数几个高速串行通道来实现高带宽传输，例如一个800Gbps 的链路可能仅使用 8 个 100Gbps 的通道。这种架构在高速传输时面临着诸多问题，包括铜缆链路的信号衰减加剧导致传输距离受限，光纤链路的功耗急剧上升以及可靠性降低。

而 MOSAIC 的 WaS 架构则采用了数百个并行的低速光学通道，每个通道的数据速率相对较低，例如在 MOSAIC 的原型中，每个通道的传输速率为 2Gbps。

故障率降低100倍，微软突破性技术破解AI算力浪费大难题

这种架构转变带来了诸多显著优势。首先，低速传输显著提高了能效，与传统光纤链路相比，MOSAIC的功耗降低了高达 68%。其次，通过采用光学传输，MOSAIC避免了铜缆链路的传输距离限制，能够支持长达 50 米的传输距离，这比铜缆链路的传输距离长出了 10 倍以上，与目前的 AOC 光纤链路相当。

第三，微 LED 比激光器更为可靠，因为它们结构更简单，对温度变化不敏感。WaS 架构的并行性使得添加冗余通道变得轻而易举，进一步提升了可靠性，比 AOC 光纤链路高出两个数量级。WaS 架构还具有良好的可扩展性，通过增加通道数量和 / 或提高单通道速率，例如提升至 4-8Gbps，可以轻松实现更高的聚合速率，如 1.6Tbps 或 3.2Tbps。

微 LED 是 MOSAIC 技术的关键组成部分之一。与传统用于照明的标准 LED 相比，微 LED 的尺寸要小得多，通常在几微米到几十微米之间。微 LED 的小型化使其能够在简单地开关调制方案下以数 Gbps 的速率进行调制，并且由于其小尺寸，可以以大规模阵列的形式制造，例如，在不到 1 毫米×1 毫米的芯片面积上集成超过50 万个微 LED，用于高分辨率显示设备，如头戴式显示器或智能手表。

故障率降低100倍，微软突破性技术破解AI算力浪费大难题

对于 MOSAIC 来说，使用小型微LED 阵列就足以实现高聚合速率的传输。例如，假设每个微 LED 通道的速率为 2Gbps，那么一个 800Gbps 的 MOSAIC 链路可以通过一个 20×20 的微 LED 阵列来实现。

微 LED 的另一个重要优势在于其工作在可见光范围，这使得可以使用低成本的 CMOS 传感器作为接收器，类似于手机摄像头中的传感器。这种 CMOS 传感器与微 LED 的结合不仅降低了成本，还因为它们共享相同的 CMOS 技术，使得接收端的电子后端能够实现更紧密的集成，包括单片设计，即在一个硅片上集成所有的模拟电子元件和光电探测器阵列。这种集成方式进一步减少了成本以及功耗。

故障率降低100倍，微软突破性技术破解AI算力浪费大难题

此外，在传统的光纤通信中，通常使用单芯光纤来传输信号。但对于 MOSAIC 这种拥有数百个并行通道的架构来说，如果为每个通道都使用单独的光纤，将会导致成本和复杂性急剧增加。因此，MOSAIC 采用了多芯成像光纤来解决这一问题。

考虑到光纤中纤芯数量的丰富性，团队并没有采用一对一地将每个微 LED 映射到一个纤芯的方案，而是选择将一个微 LED 映射到多个纤芯上。这种设计方式显著降低了对光纤与微 LED 对准精度的要求，从而进一步降低了整体的复杂性和成本。

故障率降低100倍，微软突破性技术破解AI算力浪费大难题

与使用多根离散光纤相比，多芯成像光纤采用单次制造工艺，确保了所有纤芯在传输特性上的高度一致性，并且所有纤芯的长度也几乎完全相同。结合相对较低的单通道数据速率，这使得通道间的时序偏差可以忽略不计。例如，即使假设存在 1 厘米的长度差异，在光纤中的光传播速度为 5ns/m 的情况下，所产生的延迟差异仅为 50ps。这仅相当于单通道数据速率 2Gbps 下比特周期的 10%，这样的偏差是可以轻松容忍的。

为了测试MOSAIC性能，研究团队构建了包含 100 个通道的原型，每个通道传输速率为 2Gbps。测试结果显示，在传输距离方面，它突破了铜缆局限，实现 50 米传输，远超铜缆通常不超 2 米的距离。功耗上，800Gbps 链路单端功耗仅 3.1 - 5.3W，较传统光纤链路降低 56 - 68% 。

通过 15% 冗余通道及热备用设计，结合微 LED 自身特性，故障率比现有 AOC 光纤链路低 100 倍。在30 米光纤实际测试中，2Gbps / 通道传输稳定，误码率＜2×10⁻⁸ 。模拟显示，50 米距离内 800Gbps 可插拔模块以 2Gbps / 通道传输，误码率＜10⁻⁶ ，展现出长距、低耗、高可靠的卓越性能。

故障率降低100倍，微软突破性技术破解AI算力浪费大难题

相关资讯

微软宣布 4400 亿日元历史最大在日单笔投资，并为三百万人提供 AI 技能培训

曝DeepSeek让Llama4未发布已落后！小扎坐不住了：2025预算4000亿起步，年底AI算力将达130万卡

全球AI算力报告出炉，LLM最爱A100！谷歌坐拥超100万H100等效算力