微软 Phi-4 多模态及迷你模型上线，语音视觉文本全能

作者：远洋 2025-02-27 09:04

微软推出Phi-4多模态和Phi-4迷你模型，多模态模型集成语音、视觉和文本处理，表现卓越；迷你模型专注于文本任务，性能优异。两款模型已在多个平台上线，为AI应用带来强大处理能力。#微软#AI技术#多模态模型

感谢微软于 2024 年 12 月发布了 Phi-4，这是一款在同类产品中表现卓越的小型语言模型（SLM）。今日，微软进一步扩展 Phi-4 家族，推出了两款全新模型：Phi-4 多模态（Phi-4-multimodal）和 Phi-4 迷你（Phi-4-mini）。

Phi-4 多模态模型是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型，参数量达 56 亿。在多项基准测试中，Phi-4 多模态的表现优于其他现有的先进全模态模型，例如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。

微软 Phi-4 多模态及迷你模型上线，语音视觉文本全能

在语音相关任务中，Phi-4 多模态在自动语音识别（ASR）和语音翻译（ST）方面超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专业语音模型。微软表示，该模型在 Hugging Face OpenASR 排行榜上以 6.14% 的词错误率位居榜首。

微软 Phi-4 多模态及迷你模型上线，语音视觉文本全能

在视觉相关任务中，Phi-4 多模态在数学和科学推理方面表现出色。在文档理解、图表理解、光学字符识别（OCR）和视觉科学推理等常见多模态能力方面，该模型与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相媲美甚至超越。

AI在线注意到，Phi-4 迷你模型则专注于文本任务，参数量为 38 亿。其在文本推理、数学计算、编程、指令遵循和函数调用等任务中表现优异，超越了多款流行的大型语言模型。

为确保新模型的安全性和可靠性，微软邀请了内部和外部安全专家进行测试，并采用了微软人工智能红队（AIRT）制定的策略。经过进一步优化后，Phi-4 迷你和 Phi-4 多模态模型均可通过 ONNX Runtime 部署到设备端，实现跨平台使用，适用于低成本和低延迟场景。

目前，Phi-4 多模态和 Phi-4 迷你模型已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目录中上线，供开发者使用。

Phi-4 系列新模型的推出，标志着高效 AI 技术的重大进步，为各类人工智能应用带来了强大的多模态和文本处理能力。

微软发布 Phi-4 系列小语言 AI 推理模型，AIME 2025 跑分超满血版 Deepseek R1

微软昨日（4 月 30 日）发布 Phi-4-reasoning 系列推理模型，通过监督微调 Phi-4，并利用 o3-mini 生成的高质量“可教导”提示数据集训练，专为复杂推理任务设计。

5/1/2025 3:07:20 PM 故渊

微软推出 14B 参数小语言模型 Phi-4：专攻数学等领域复杂推理

微软今天宣布推出14B参数“最先进”小型语言模型（SLM）Phi-4，除了传统的语言处理外，它还擅长数学等领域的复杂推理。Phi-4是Phi系列小型语言模型的最新成员，官方表示其展示了微软继续探索SLM边界的可能性。

12/13/2024 12:42:39 PM 清源

微软发布 Phi-4 多模态与迷你模型，语音视觉文本处理再升级

近日，微软进一步扩展了 Phi-4家族，推出了两款新模型:Phi-4多模态（Phi-4-multimodal）和 Phi-4迷你(Phi-4-mini)，这两款模型的亮相，无疑将为各类 AI 应用提供更加强大的处理能力。 Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型，拥有5600万参数。这款模型在多项基准测试中表现优异，超越了目前市场上的许多竞争对手，例如谷歌的 Gemini2.0系列。

2/27/2025 9:38:00 AM AI在线

微软 Phi-4 多模态及迷你模型上线，语音视觉文本全能

相关资讯

微软发布 Phi-4 系列小语言 AI 推理模型，AIME 2025 跑分超满血版 Deepseek R1

微软推出 14B 参数小语言模型 Phi-4：专攻数学等领域复杂推理

微软发布 Phi-4 多模态与迷你模型，语音视觉文本处理再升级