小身材，大智慧!微软Phi-4系列推理模型发布，性能直逼GPT-4o

作者：AI在线 2025-05-02 10:01

微软正积极扩展其Phi系列紧凑型语言模型，最新发布了三款专为高级推理任务设计的新变体:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。这些模型旨在通过结构化推理和内部反思处理复杂的问答，同时保持轻量级特性，使其能够在包括移动设备在内的低端硬件上高效运行，延续了微软Phi系列在资源受限设备上实现强大AI功能的愿景。 Phi-4-reasoning 拥有140亿个参数，并借鉴OpenAI o3-mini的推理路径，通过监督微调进行训练。

Phi-4-reasoning 拥有140亿个参数，并借鉴OpenAI o3-mini的推理路径，通过监督微调进行训练。更高级的Phi-4-reasoning-plus在此基础上增加了强化学习机制，处理的token数量是基础模型的1.5倍，从而提升了准确率，但同时也增加了响应时间和计算成本。令人瞩目的是，尽管参数量仅为140亿，Phi-4推理模型的性能却能匹敌甚至超越参数量高达700亿的DeepSeek-R1-Distill-Llama等大型模型。在著名的美国数学奥林匹克预选赛AIME-2025基准测试中，Phi模型甚至超越了拥有6710亿参数的DeepSeek-R1。

微软表示，这些模型在编程、算法问题解决和规划任务方面也展现出卓越的性能。逻辑推理能力的提升也积极促进了更通用功能的改进，例如更好地遵循用户提示或基于长篇内容回答问题。研究人员指出，这些改进在通用基准测试中也产生了显著的迁移效应。在HumanEvalPlus（代码能力）和MMLUPro(语言理解)等基准测试中，Phi-4推理模型的表现已能与GPT-4o和o3-mini等更大规模的模型相媲美。

此次发布中最引人注目的是Phi-4-mini-reasoning，这款仅有38亿参数的小型模型专为教育工具和辅导系统等移动和嵌入式应用而设计。它接受了超过一百万道涵盖中学到研究生水平的数学题的训练，使其在数学推理方面表现出色。尽管体积小巧，Phi-4-mini-reasoning在多项评估中均超越了OpenThinker-7B和DeepSeek-R1-Distill-Qwen-7B等模型，在数学问题求解方面甚至能与OpenAI的o1-mini相媲美。

值得一提的是，微软已针对Windows系统对这些新模型进行了优化。Copilot+ PC上部署了一个名为Phi Silica的变体，该模型集成到Outlook等工具中，用于离线摘要和“点击执行”等上下文文本功能。Phi Silica直接在神经处理单元（NPU）上运行，从而实现了更快的响应速度和更低的功耗，为用户带来更流畅的本地化AI体验。

目前，Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning 这三款模型均已在Azure AI Foundry和Hugging Face上开放权重，供开发者和研究人员使用。微软此举无疑将进一步推动紧凑型高性能语言模型的发展和应用，特别是在移动和资源受限的环境中。