英伟达推出 Nemotron 3：混合架构提升 AI 代理处理效率

作者：AI在线 2025-12-18 04:36

英伟达近日发布了其全新的 Nemotron 3 系列，这一系列产品结合了 Mamba 和 Transformer 两种架构，旨在高效处理长时间上下文窗口，同时减少资源消耗。 Nemotron 3 系列专为基于代理的人工智能系统设计，这类系统能够自主执行复杂任务，持续进行长时间的交互。新产品系列包括三个型号：Nano、Super 和 Ultra。

英伟达近日发布了其全新的 Nemotron 3 系列，这一系列产品结合了 Mamba 和 Transformer 两种架构，旨在高效处理长时间上下文窗口，同时减少资源消耗。Nemotron 3 系列专为基于代理的人工智能系统设计，这类系统能够自主执行复杂任务，持续进行长时间的交互。

新产品系列包括三个型号：Nano、Super 和 Ultra。当前 Nano 型号已正式上市，而 Super 和 Ultra 预计将在 2026 年上半年推出。英伟达在这次发布中打破了传统的纯 Transformer 架构，采用了一种混合架构，这种架构将高效的 Mamba 层与 Transformer 元素及混合专家（MoE）技术相结合。与传统的纯 Transformer 模型相比，Nemotron 3 能更好地处理长输入序列，同时保持内存使用稳定。

Nemotron 3 支持高达一百万个令牌的上下文窗口，这使其与 OpenAI 和 Google 等前沿模型相匹配，可以在不对硬件造成过大压力的情况下，存储大量的信息，比如整个代码库或长时间的对话历史。Nano 型号具有 316 亿个参数，但在每个处理步骤中，只有 30 亿个参数处于激活状态。根据人工智能分析指数（AII）的基准测试，Nemotron 3 在准确率上可与 gpt-oss-20B 和 Qwen3-30B 相媲美，并且在令牌吞吐量上表现更为出色。

英伟达还为更强大的 Super 和 Ultra 型号引入了两项重要架构改进。第一项是 LatentMoE，它旨在解决标准 MoE 模型中内存带宽的开销问题，允许系统在处理令牌之前将其投影到压缩的潜在表示中。第二项改进是多词元预测（MTP）技术，在训练过程中可以同时预测多个词元，从而提高文本生成速度和逻辑推理能力。

此外，英伟达发布了 Nano 型号的权重、训练方案和多个数据集，包括基于 Common Crawl 的 Nemotron-CC-v2.1 等，这为开发者提供了强大的支持。此次发布符合英伟达致力于开发更小型语言模型的战略，以优先考虑速度而非原始性能。