AI在线 AI在线

微软发布Phi-4-mini“闪推版”:10倍吞吐,只用38亿参数,干翻76B大模型

微软推出了一款名为 Phi-4-mini-flash-reasoning 的全新轻量级人工智能模型。 据说,这款模型专为计算、内存或延迟受限的场景量身打造。 其目标是在不依赖强大硬件的情况下,提供卓越的推理能力。

微软推出了一款名为 Phi-4-mini-flash-reasoning 的全新轻量级人工智能模型。

据说,这款模型专为计算、内存或延迟受限的场景量身打造。其目标是在不依赖强大硬件的情况下,提供卓越的推理能力。

该模型构建于微软去年十二月推出的Phi-4家族基础之上,参数规模达到38亿。模型重点,则聚焦于提升数学推理方面的能力。

Phi-4-mini-flash-reasoning 直接带来了性能的巨大飞跃。微软方面表示,它实现了高达十倍的吞吐量提升。与其前代模型相比,新模型的平均延迟降低了二至三倍。

图片图片

图注:标准推理与 flash 推理的延迟与吞吐量对比,flash 在相同延迟下实现了 10 倍的吞吐量。Flash 推理在保持相同延迟响应的同时,将吞吐量提高了十倍。图源微软

需要指出的是,这些测试结果基于工业级GPU,而非模型所针对的低资源设备。即便如此,这一成绩也预示了其在目标设备上的巨大潜力。

Phi-4-mini-flash-reasoning在处理长上下文方面同样表现出色。该模型支持高达 64,000个 token 的上下文窗口。即使在处理达到容量上限的长序列时,它也能保持其速度和性能。

架构革新:“闪推”机制源自SambaY与GMU

图源微软

微软将此归功于SambaY设计的高效率。SambaY架构确保了处理速度的稳定,即便序列长度不断增加。

SambaY架构引入了门控内存单元(GMU)和“差分注意力”机制,构成了其技术基石。

传统的Transformer模型每一层都依赖复杂的注意力机制来判断输入内容的重要性。而门控内存单元(GMU)通过一种简化的方式,彻底改变了这一流程。

它用简单的逐元素乘法操作,替代了计算量巨大的交叉注意力运算。这种乘法运算在当前输入和前一层记忆状态之间进行。使得模型能够动态地重新校准需要关注的token,且无需承担常规的计算开销。

图片图片

图注:Phi-4-mini-flash-reasoning 在处理 32,000 个 token 时的延迟远低于标准推理模型,突显了 flash 方法的高效性。图源微软

SambaY 实际上混合了多种注意力机制,形成一种高效的混合解码器架构。模型中只有一个全注意力层,负责创建一个键值缓存(key-value cache)。后续的层级可以直接访问这个共享的键值缓存。而门控内存单元(GMU)则取代了大约一半的交叉注意力层。

这些层级通过轻量级的乘法运算共享信息,大幅降低了计算复杂度,这种独特的设计显著削减了内存使用和计算需求。

在传统模型中,随着序列长度的增加,内存与处理器之间的数据传输量会急剧攀升。但在SambaY架构下,即使序列长度增加,数据传输量也基本保持平稳。

超越基准:卓越的推理能力

图片图片

论文地址:https://arxiv.org/abs/2507.06607v1   图源微软

新模型的“flash”版本在各项基准测试中脱颖而出。Phi-4-mini-flash-reasoning的训练使用了与Phi-4-mini相同的五万亿token数据集。

训练数据中包含了大量为提升推理能力而生成的合成数据。整个训练过程动用了1000块A100 GPU,持续了14天。

图片图片

在后续的测试中,它持续击败了作为基础模型的Phi-4-mini。尤其在知识密集型和编程任务上,性能提升了数个百分点。

该模型在数学和科学推理方面的表现也更为优异。值得注意的是,它是在没有采用资源密集型强化学习步骤的情况下,取得了这些成就。

此前的模型版本通常需要依赖强化学习进行微调。在部分基准测试中,Phi-4-mini-flash-reasoning的表现甚至超越了规模是其两倍的大型模型

这证明了其架构的卓越效率,能够以更小的规模实现更强的能力。

微软已经将Phi-4-mini-flash-reasoning模型在Hugging Face平台上提供。同时,微软在Phi Cookbook中发布了相关的代码示例。完整的训练代码库也已在GitHub上开源。

抱抱脸:https://huggingface.co/microsoft/phi-4-mini-flash-reasoning

Phi Cookbook:https://github.com/microsoft/PhiCookBook

Github:https://github.com/microsoft/ArchScale

相关资讯

微软开源 Phi-4 推理模型:啰嗦AI,反卷出圈

AI圈子最有意思的事,已经不是“谁家模型参数最多”,而是——谁家小模型,能把大模型打趴下。 最近,微软研究院开源了一款“小而强”的研究:Phi-4-reasoning-plus。 这是一款专为深度结构化推理任务设计的开源语言模型。
5/8/2025 4:45:32 PM
文摘菌

微软 CEO 纳德拉:Azure AI Studio 已支持提供 OpenAI GPT-4o API

感谢IT之家网友 我抢了台 的线索投递!5 月 22 日凌晨,微软 Build 2024 开发者大会于在美国西雅图召开,据微软公司 CEO、董事长萨提亚・纳德拉介绍,由 OpeanAI 开发的最新旗舰模型 GPT-4o,现已在 Azure AI Studio 中提供,并作为 API 提供。该多模态模型集成了文本、图像和音频处理能力,带来了全新的生成式和对话式 AI 体验。此外,由微软开发的 Phi-3 列 AI 小型语言模型 (SLM) 中的一种新型多模态模型 Phi-3-vision 现已在 Azure 中推出。
5/22/2024 7:10:23 AM
文猛

小模型界o1来了:微软推出Phi-4,数学推理能力太逆天!14B模型击败GPT-4o!还印证了AI墙的一个重要推断

编辑 | 伊风  出品 | 51CTO技术栈(微信号:blog51cto)家人们,微软Phi-4的数学能力太逆天了。 谁看了不感慨一句:小模型才是未来! 8个月前,微软发布了Phi-3,性能超过庞然大物Llama-3,狠狠惊艳了我们一把。
12/13/2024 1:04:13 PM
伊风
  • 1