微软发布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合专家模型

作者：故渊 2024-08-21 03:23

微软公司今天发布了 Phi-3.5 系列 AI 模型，其中最值得关注的是推出了该系列首个混合专家模型（MoE）版本 Phi-3.5-MoE。本次发布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款轻量级 AI 模型，基于合成数据和经过过滤的公开网站构建，上下文窗口为 128K，所有模型现在都可以在 Hugging Face 上以 MIT 许可的方式获取。AI在线附上相关介绍如下：Phi-3.5-MoE：首个混合专家模型Phi-3.5-MoE 是

微软公司今天发布了 Phi-3.5 系列 AI 模型，其中最值得关注的是推出了该系列首个混合专家模型（MoE）版本 Phi-3.5-MoE。

本次发布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款轻量级 AI 模型，基于合成数据和经过过滤的公开网站构建，上下文窗口为 128K，所有模型现在都可以在 Hugging Face 上以 MIT 许可的方式获取。AI在线附上相关介绍如下：

Phi-3.5-MoE：首个混合专家模型

Phi-3.5-MoE 是 Phi 系列中首个利用混合专家（MoE）技术的模型。该模型在 16 x 3.8B MoE 模型使用 2 个专家仅激活了 66 亿个参数，并使用 512 个 H100 在 4.9T 标记上进行了训练。

微软研究团队从零开始设计该模型，以进一步提高其性能。在标准人工智能基准测试中，Phi-3.5-MoE 的性能超过了 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash，并接近目前的领先者 GPT-4o-mini。

Phi-3.5-vision：增强型多帧图像理解

Phi-3.5-vision 共有 42 亿个参数，使用 256 个 A100 GPU 在 500B 标记上进行训练，现在支持多帧图像理解和推理。

Phi-3.5-vision 在 MMMU（从 40.2 提高到 43.0）、MMBench（从 80.5 提高到 81.9）和文档理解基准 TextVQA（从 70.9 提高到 72.0）上的性能均有提高。

Phi-3.5-mini：轻量级、强功能

Phi-3.5-mini 是一个 38 亿参数模型，超过了 Llama3.1 8B 和 Mistral 7B，甚至可媲美 Mistral NeMo 12B。

该模型使用 512 个 H100 在 3.4T 标记上进行了训练。该模型仅有 3.8B 个有效参数，与拥有更多有效参数的 LLMs 相比，在多语言任务中具有很强的竞争力。

此外，Phi-3.5-mini 现在支持 128K 上下文窗口，而其主要竞争对手 Gemma-2 系列仅支持 8K。

iPhone 上本地每秒生成 12 个 tokens，微软发布 phi-3-mini 模型：38 亿参数

微软研究院近日发布技术报告，公布了 Phi-3 系列 AI 模型，共有 mini（38 亿参数）、small（70 亿参数）和 medium（140 亿参数）三个版本。微软表示拥有 38 亿参数的 phi-3-mini 通过 3.3 万亿个 tokens 上训练，其基准跑分性能超出 Mixtral 8x7B 和 GPT-3.5。微软表示 phi-3-mini 模型可以部署在手机等设备上，在 27 亿参数的 Phi-2 模型上，进一步整合了严格过滤的网络数据和合成数据。微软也坦言 phi-3-mini 模型虽然通过优

4/23/2024 1:53:17 PM

故渊

小巧却强大的推理引擎！Ring-mini-2.0 震撼发布，性能超越10B模型

今天，我们正式推出了 Ring-mini-2.0，这是一款基于 Ling-mini-2.0架构深度优化的高性能推理型 MoE 模型。 Ring-mini-2.0的总参数量达到16B，但在实际运行中仅需激活1.4B 参数，便能实现相当于10B 级别以下的密集模型的推理能力。这款模型在逻辑推理、编程和数学任务中表现尤为出色，支持128K 的长上下文，使得其在各种应用场景中都能展现出强大的能力。

9/18/2025 5:11:15 PM

AI在线

微软现支持开发者微调 Phi-3-mini 和 Phi-3-medium AI 模型

微软公司昨日（7 月 25 日）发布博文，宣布在 Azure 上支持开发者微调（fine-tune） Phi-3-mini 和 Phi-3-medium AI 模型，针对不同用例提高模型的性能。例如，开发者可以微调 Phi-3-medium 模型，用于辅导学生；或者可以根据特定的语气或响应风格构建聊天应用程序。Phi-3-mini 模型于今年 4 月发布，共有 38 亿参数，上下文长度有 4K 和 128K 两个版本；Phi-3-medium 模型共有 140 亿参数，上下文长度同样有 4K 和 128K 两个版本

7/26/2024 4:08:52 PM

故渊

微软发布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合专家模型

Phi-3.5-MoE：首个混合专家模型

Phi-3.5-vision：增强型多帧图像理解

Phi-3.5-mini：轻量级、强功能

相关资讯

iPhone 上本地每秒生成 12 个 tokens，微软发布 phi-3-mini 模型：38 亿参数

小巧却强大的推理引擎！Ring-mini-2.0 震撼发布，性能超越10B模型

微软现支持开发者微调 Phi-3-mini 和 Phi-3-medium AI 模型