微软发布Phi-4-mini“闪推版”：10倍吞吐，只用38亿参数，干翻76B大模型

微软推出了一款名为 Phi-4-mini-flash-reasoning 的全新轻量级人工智能模型。据说，这款模型专为计算、内存或延迟受限的场景量身打造。其目标是在不依赖强大硬件的情况下，提供卓越的推理能力。

微软推出了一款名为 Phi-4-mini-flash-reasoning 的全新轻量级人工智能模型。

据说，这款模型专为计算、内存或延迟受限的场景量身打造。其目标是在不依赖强大硬件的情况下，提供卓越的推理能力。

该模型构建于微软去年十二月推出的Phi-4家族基础之上，参数规模达到38亿。模型重点，则聚焦于提升数学推理方面的能力。

Phi-4-mini-flash-reasoning 直接带来了性能的巨大飞跃。微软方面表示，它实现了高达十倍的吞吐量提升。与其前代模型相比，新模型的平均延迟降低了二至三倍。

图片

图注：标准推理与 flash 推理的延迟与吞吐量对比，flash 在相同延迟下实现了 10 倍的吞吐量。Flash 推理在保持相同延迟响应的同时，将吞吐量提高了十倍。图源微软

需要指出的是，这些测试结果基于工业级GPU，而非模型所针对的低资源设备。即便如此，这一成绩也预示了其在目标设备上的巨大潜力。

Phi-4-mini-flash-reasoning在处理长上下文方面同样表现出色。该模型支持高达 64,000个 token 的上下文窗口。即使在处理达到容量上限的长序列时，它也能保持其速度和性能。

图源微软

微软将此归功于SambaY设计的高效率。SambaY架构确保了处理速度的稳定，即便序列长度不断增加。

SambaY架构引入了门控内存单元（GMU）和“差分注意力”机制，构成了其技术基石。

传统的Transformer模型每一层都依赖复杂的注意力机制来判断输入内容的重要性。而门控内存单元（GMU）通过一种简化的方式，彻底改变了这一流程。

它用简单的逐元素乘法操作，替代了计算量巨大的交叉注意力运算。这种乘法运算在当前输入和前一层记忆状态之间进行。使得模型能够动态地重新校准需要关注的token，且无需承担常规的计算开销。

图片

图注：Phi-4-mini-flash-reasoning 在处理 32,000 个 token 时的延迟远低于标准推理模型，突显了 flash 方法的高效性。图源微软

SambaY 实际上混合了多种注意力机制，形成一种高效的混合解码器架构。模型中只有一个全注意力层，负责创建一个键值缓存（key-value cache）。后续的层级可以直接访问这个共享的键值缓存。而门控内存单元（GMU）则取代了大约一半的交叉注意力层。

这些层级通过轻量级的乘法运算共享信息，大幅降低了计算复杂度，这种独特的设计显著削减了内存使用和计算需求。

在传统模型中，随着序列长度的增加，内存与处理器之间的数据传输量会急剧攀升。但在SambaY架构下，即使序列长度增加，数据传输量也基本保持平稳。

图片

论文地址：https://arxiv.org/abs/2507.06607v1 图源微软

新模型的“flash”版本在各项基准测试中脱颖而出。Phi-4-mini-flash-reasoning的训练使用了与Phi-4-mini相同的五万亿token数据集。

训练数据中包含了大量为提升推理能力而生成的合成数据。整个训练过程动用了1000块A100 GPU，持续了14天。

图片

在后续的测试中，它持续击败了作为基础模型的Phi-4-mini。尤其在知识密集型和编程任务上，性能提升了数个百分点。

该模型在数学和科学推理方面的表现也更为优异。值得注意的是，它是在没有采用资源密集型强化学习步骤的情况下，取得了这些成就。

此前的模型版本通常需要依赖强化学习进行微调。在部分基准测试中，Phi-4-mini-flash-reasoning的表现甚至超越了规模是其两倍的大型模型。

这证明了其架构的卓越效率，能够以更小的规模实现更强的能力。

微软已经将Phi-4-mini-flash-reasoning模型在Hugging Face平台上提供。同时，微软在Phi Cookbook中发布了相关的代码示例。完整的训练代码库也已在GitHub上开源。

抱抱脸：https://huggingface.co/microsoft/phi-4-mini-flash-reasoning

Phi Cookbook：https://github.com/microsoft/PhiCookBook

Github：https://github.com/microsoft/ArchScale

相关资讯