微软发布创新小参数模型Mu:性能比肩Phi-3.5-mini，赋能Windows智能体

今天凌晨，微软正式发布了其最新创新小参数模型Mu。这款模型参数仅为3.3亿，却在性能上能与微软此前发布的Phi-3.5-mini相媲美，而其体量仅为Phi-3.5-mini的十分之一。更令人瞩目的是，Mu在离线NPU笔记本设备上能实现每秒超过100个token的响应速度，这在小参数模型领域是极为罕见的突破。

今天凌晨，微软正式发布了其最新创新小参数模型Mu。 这款模型参数仅为3.3亿，却在性能上能与微软此前发布的Phi-3.5-mini相媲美，而其体量仅为Phi-3.5-mini的十分之一。更令人瞩目的是，Mu在离线NPU笔记本设备上能实现每秒超过100个token的响应速度，这在小参数模型领域是极为罕见的突破。

Mu模型的一大亮点是支持在Windows中设置智能体。用户只需通过自然语言指令，智能体便能实时转化为系统操作，例如，一句“把鼠标指针调大一些，调整屏幕亮度”即可让智能体精准定位并一键完成设置调整，极大地提升了Windows系统的易用性。

Mu架构:小型本地部署的卓越优化

Mu模型借鉴了微软之前发布的Phi Silica模型，专为小型本地部署进行优化，尤其适用于配备NPU的Copilot+ PC。其核心架构为仅解码器的Transformer，并在其基础上引入了三大创新:

双重层归一化（Dual Layer Normalization）:通过在Transformer架构的每个子层前后分别实施LayerNorm操作，有效确保了激活值的分布具有良好的统计特性，显著增强了训练过程的稳定性，避免了深层网络中常见的训练不稳定问题，从而提高了训练效率并降低了资源消耗。
旋转位置嵌入（Rotary Position Embedding， RoPE）:相较于传统的绝对位置嵌入，RoPE通过引入复数域的旋转操作，将位置编码变为动态可扩展的函数映射。这使得模型能直接体现token之间的相对距离，解决了传统方法在处理超长序列时性能下降的问题，并赋予模型出色的长序列外推能力。
分组查询注意力（Grouped-Query Attention）:此优化针对传统多头注意力机制中参数和内存消耗大的问题。通过在头组之间共享键（Key）和值(Value)，显著减少了注意力参数的数量和内存占用，从而降低了在NPU上的延迟和功耗，提高了模型运行效率，同时通过保持头的多样性，确保了与传统多头注意力机制相当的性能。

此外，Mu模型还采用了预热稳定衰减时间表和Muon优化器等先进训练技术来进一步优化性能。微软使用A100GPU对Mu进行训练，遵循Phi模型开发中首创的技术，首先在数百亿个高质量教育token上进行预训练，以学习语言的语法、语义和世界知识。为了进一步提高准确性，Mu还从Phi模型中进行知识蒸馏，实现了显著的参数效率，参数量仅为Phi-3.5-mini的十分之一，却达到了相似的性能。

赋能Windows智能体:低延迟与高精准的完美结合

为提升Windows系统的易用性，微软一直致力于打造一个能理解自然语言并无缝修改系统设置的AI智能体。微软计划将Mu模型驱动的智能体集成到现有搜索框中，以实现流畅的用户体验，这要求对众多可能的设置实现超低延迟响应。

在测试了多种模型后，Mu因其合适的特性被选中。尽管基线Mu模型在未经微调的情况下精度会下降50%，但微软通过将训练规模扩大到360万个样本（提升1300倍），并将处理的设置从约50项扩展至数百项，成功弥补了这一差距。通过采用自动化标注的合成方法、带元数据的提示调优、多样化措辞、噪声注入和智能采样等技术，用于设置智能体的Mu微调模型成功达到了质量目标。测试显示，Mu模型打造的智能体在Windows设置的理解和执行操作方面表现出色，响应时间控制在500毫秒以内。

微软发布创新小参数模型Mu:性能比肩Phi-3.5-mini，赋能Windows智能体

Mu架构:小型本地部署的卓越优化

赋能Windows智能体:低延迟与高精准的完美结合

相关资讯

微软重磅发布设备端小模型Mu:3.3亿参数小模型 Windows11设置AI助手的智能引擎

微软辟谣“重写 Windows”传闻:暂无使用 AI 和 Rust 彻底更替代码的计划

微软 Win11 Copilot 应用新功能：文件搜索与视觉助手开启测试