AI在线 AI在线

AI 数学推理新王:英伟达发布两款 OpenMath-Nemotron 模型,刷新 AIME 准确率纪录

科技媒体 marktechpost 今天(4 月 25 日)发布博文,报道称英伟达专为数学推理设计,发布 OpenMath-Nemotron-32B和OpenMath-Nemotron-14B-Kaggle 两款先进 AI 模型。

科技媒体 marktechpost 今天(4 月 25 日)发布博文,报道称英伟达专为数学推理设计,发布  OpenMath-Nemotron-32B 和 OpenMath-Nemotron-14B-Kaggle 两款先进 AI 模型。

数学推理一直是 AI 领域的巨大挑战。传统的语言模型擅长生成流畅文本,却在解决复杂数学问题时显得力不从心,这些问题不仅需要理解抽象概念,还要求多步骤的逻辑推导。

AI在线援引博文介绍,英伟达针对这一难题,推出了 OpenMath-Nemotron-32B 和 OpenMath-Nemotron-14B-Kaggle 两款模型,基于 Qwen 系列 transformer 模型,通过在 OpenMathReasoning 数据集上的深度微调,显著提升了数学推理能力。

OpenMath-Nemotron-32B 是系列中的旗舰产品,拥有 328 亿参数,采用 BF16 张量运算优化硬件效率。该模型在 AIME 2024、AIME 2025、HMMT 2024-25 等多项基准测试中取得领先成绩。

以工具集成推理(TIR)模式为例,其在 AIME24 上的 pass@1 准确率达到 78.4%,通过多数投票机制更是提升至 93.3%。

AI 数学推理新王:英伟达发布两款 OpenMath-Nemotron 模型,刷新 AIME 准确率纪录

此外,模型支持链式思维(CoT)、工具集成推理(TIR)和生成式选择(GenSelect)三种模式,用户可根据需求平衡推理透明度和答案精确度,满足科研和生产环境的不同场景。

OpenMath-Nemotron-14B-Kaggle 是一款 148 亿参数的轻量模型,针对 AIMO-2 Kaggle 竞赛优化设计,通过精选 OpenMathReasoning 数据集子集进行微调,成功夺得竞赛第一名。

在 AIME24 测试中,其 CoT 模式下 pass@1 准确率为 73.7%,GenSelect 模式下提升至 86.7%。这款模型参数更少,保持高质量的数学解题能力的同时,适合资源受限或低延迟需求的场景。

英伟达为两款模型提供了开源管道,集成于 NeMo-Skills 框架中,支持数据生成、训练和评估的全流程复现。开发者可通过示例代码快速构建应用,获取逐步解答或简洁答案。

模型针对 NVIDIA GPU(如 Ampere 和 Hopper 架构)深度优化,利用 CUDA 库和 TensorRT 技术,确保高效运行。同时,采用 Triton Inference Server 支持低延迟、高吞吐量的部署,BF16 格式则在内存占用与性能间取得平衡,助力大规模应用落地。

相关资讯

英伟达推出 NIM AI 护栏服务,防止模型遭用户“越狱”

英伟达宣布推出一项名为“NIM”的 AI 护栏服务,该服务现已以英伟达 NeMo 护栏(NeMo Guardrails)套件的形式提供,可以让开发人员为大语言模型(LLM)添加一系列护栏规则,旨在解决用户通过提示词“越狱”大模型。防止 AI 生成不符合预期的内容。
1/18/2025 10:39:35 PM
漾仔

英伟达推出 Signs 平台:AI 突破美式手语学习,助力连接无声世界

科技媒体 WinBuzzer 昨日(2 月 20 日)发布博文,报道称英伟达携手美国聋童协会(ASDC)和数字代理公司 Hello Monday,推出了一款名为 Signs 的 AI 平台,帮助更多人学习和应用美式手语(ASL)。
2/21/2025 11:22:10 AM
故渊

英伟达发布游戏内推理 SDK,打造智能游戏角色的秘密武器

NVIDIA ACE与NVIGI的结合,为游戏开发带来了革命性的变化。它不仅能够提升游戏角色的智能化水平,还能显著增强游戏的互动性和沉浸感。借助ACE先进的生成式AI模型和NVIGI的无缝集成,游戏开发者可以创造出更具吸引力和生命力的游戏世界。
2/22/2025 10:47:00 AM
故渊
  • 1