AI在线 AI在线

小身材,大智慧!微软Phi-4系列推理模型发布,性能直逼GPT-4o

微软正积极扩展其Phi系列紧凑型语言模型,最新发布了三款专为高级推理任务设计的新变体:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。 这些模型旨在通过结构化推理和内部反思处理复杂的问答,同时保持轻量级特性,使其能够在包括移动设备在内的低端硬件上高效运行,延续了微软Phi系列在资源受限设备上实现强大AI功能的愿景。 Phi-4-reasoning 拥有140亿个参数,并借鉴OpenAI o3-mini的推理路径,通过监督微调进行训练。

微软正积极扩展其Phi系列紧凑型语言模型,最新发布了三款专为高级推理任务设计的新变体:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。这些模型旨在通过结构化推理和内部反思处理复杂的问答,同时保持轻量级特性,使其能够在包括移动设备在内的低端硬件上高效运行,延续了微软Phi系列在资源受限设备上实现强大AI功能的愿景。

Phi-4-reasoning 拥有140亿个参数,并借鉴OpenAI o3-mini的推理路径,通过监督微调进行训练。更高级的Phi-4-reasoning-plus在此基础上增加了强化学习机制,处理的token数量是基础模型的1.5倍,从而提升了准确率,但同时也增加了响应时间和计算成本。令人瞩目的是,尽管参数量仅为140亿,Phi-4推理模型的性能却能匹敌甚至超越参数量高达700亿的DeepSeek-R1-Distill-Llama等大型模型。在著名的美国数学奥林匹克预选赛AIME-2025基准测试中,Phi模型甚至超越了拥有6710亿参数的DeepSeek-R1。

微软表示,这些模型在编程、算法问题解决和规划任务方面也展现出卓越的性能。逻辑推理能力的提升也积极促进了更通用功能的改进,例如更好地遵循用户提示或基于长篇内容回答问题。研究人员指出,这些改进在通用基准测试中也产生了显著的迁移效应。在HumanEvalPlus(代码能力)和MMLUPro(语言理解)等基准测试中,Phi-4推理模型的表现已能与GPT-4o和o3-mini等更大规模的模型相媲美。

1746149373150.png

此次发布中最引人注目的是Phi-4-mini-reasoning,这款仅有38亿参数的小型模型专为教育工具和辅导系统等移动和嵌入式应用而设计。它接受了超过一百万道涵盖中学到研究生水平的数学题的训练,使其在数学推理方面表现出色。尽管体积小巧,Phi-4-mini-reasoning在多项评估中均超越了OpenThinker-7B和DeepSeek-R1-Distill-Qwen-7B等模型,在数学问题求解方面甚至能与OpenAI的o1-mini相媲美。

值得一提的是,微软已针对Windows系统对这些新模型进行了优化。Copilot+ PC上部署了一个名为Phi Silica的变体,该模型集成到Outlook等工具中,用于离线摘要和“点击执行”等上下文文本功能。Phi Silica直接在神经处理单元(NPU)上运行,从而实现了更快的响应速度和更低的功耗,为用户带来更流畅的本地化AI体验。

目前,Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning 这三款模型均已在Azure AI Foundry和Hugging Face上开放权重,供开发者和研究人员使用。微软此举无疑将进一步推动紧凑型高性能语言模型的发展和应用,特别是在移动和资源受限的环境中。

相关资讯

iPhone 上本地每秒生成 12 个 tokens,微软发布 phi-3-mini 模型:38 亿参数

微软研究院近日发布技术报告,公布了 Phi-3 系列 AI 模型,共有 mini(38 亿参数)、small(70 亿参数)和 medium(140 亿参数)三个版本。微软表示拥有 38 亿参数的 phi-3-mini 通过 3.3 万亿个 tokens 上训练,其基准跑分性能超出 Mixtral 8x7B 和 GPT-3.5。微软表示 phi-3-mini 模型可以部署在手机等设备上,在 27 亿参数的 Phi-2 模型上,进一步整合了严格过滤的网络数据和合成数据。微软也坦言 phi-3-mini 模型虽然通过优
4/23/2024 1:53:17 PM
故渊

微软现支持开发者微调 Phi-3-mini 和 Phi-3-medium AI 模型

微软公司昨日(7 月 25 日)发布博文,宣布在 Azure 上支持开发者微调(fine-tune) Phi-3-mini 和 Phi-3-medium AI 模型,针对不同用例提高模型的性能。例如,开发者可以微调 Phi-3-medium 模型,用于辅导学生;或者可以根据特定的语气或响应风格构建聊天应用程序。Phi-3-mini 模型于今年 4 月发布,共有 38 亿参数,上下文长度有 4K 和 128K 两个版本;Phi-3-medium 模型共有 140 亿参数,上下文长度同样有 4K 和 128K 两个版本
7/26/2024 4:08:52 PM
故渊

微软发布 Phi-3.5 系列 AI 模型:上下文窗口 128K,首次引入混合专家模型

微软公司今天发布了 Phi-3.5 系列 AI 模型,其中最值得关注的是推出了该系列首个混合专家模型(MoE)版本 Phi-3.5-MoE。本次发布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款轻量级 AI 模型,基于合成数据和经过过滤的公开网站构建,上下文窗口为 128K,所有模型现在都可以在 Hugging Face 上以 MIT 许可的方式获取。AI在线附上相关介绍如下:Phi-3.5-MoE:首个混合专家模型Phi-3.5-MoE 是
8/21/2024 3:23:25 PM
故渊
  • 1