英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

作者：故渊 2025-05-14 02:03

英伟达联合推出 Nemotron-Research-Tool-N1 系列模型，受 DeepSeek-R1 启发，采用新型强化学习（RL）范式，强化模型推理能力。

科技媒体 marktechpost 昨日（5 月 13 日）发布博文，报道称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型，受 DeepSeek-R1 启发，采用新型强化学习（RL）范式，强化模型推理能力。

大型语言模型（LLMs）通过外部工具提升性能已成为热门趋势，这些工具帮助 LLMs 在搜索引擎、计算器、视觉工具和 Python 解释器等领域表现出色。但现有研究依赖合成数据集，无法捕捉明确的推理步骤，导致模型仅模仿表面模式，而非真正理解决策过程。

为了提升 LLMs 的工具使用能力，现有方法探索了多种策略。主要包括两方面：第一，数据集整理和模型优化。研究者创建大规模监督数据集，并应用监督微调（SFT）和直接偏好优化（DPO）强化学习等技术，将 LLMs 与外部工具整合，扩展其功能。

第二，改进推理过程。从传统的训练时扩展转向测试时复杂策略。早期方法依赖步骤级监督和学习奖励模型，指导推理轨迹。

这些方法虽有效，却仍受限于合成数据的不足。研究者指出，通过这些策略，LLMs 能处理单轮或多轮工具调用，但缺乏自主推理的深度。

英伟达联合宾夕法尼亚州立大学、华盛顿大学，组建专业团队，合作开发 Nemotron-Research-Tool-N1 系列，针对现有方法的局限性，借鉴 DeepSeek-R1 的成功，开发轻量级监督机制，专注于工具调用的结构有效性和功能正确性。

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

Nemotron-Research-Tool-N1 系列并非依赖显式标注的推理轨迹，而是采用二元奖励机制，让模型自主发展推理策略。

研究者统一处理了 xLAM 和 ToolACE 等数据集（提供单轮和多轮工具调用轨迹）的子集，并设计了轻量级提示模板，指导工具生成过程。

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

该模板使用 <think>...</think > 标签明确指示中间推理，并用 < tool_call>...</tool_call > 标签封装工具调用，这样避免了过度拟合特定提示模式。

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

主干模型为 Qwen2.5-7B / 14B，并测试了 LLaMA 系列变体，以评估泛化能力。在 BFCL 基准测试中，Nemotron-Research-Tool-N1-7B / 14B 模型表现出色，超越了 GPT-4o 等封闭源模型，以及 xLAM-2-70B 和 ToolACE-8B 等专用微调模型。

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

与相同数据源的 SFT 基准相比，该模型优势明显，证明了 RL 方法的有效性。在 API-Bank 基准上，Tool-N1-7B / 14B 的准确率分别比 GPT-4o 高出 4.12% 和 5.03%。这些结果验证了新方法的潜力，帮助 LLMs 更自主地生成推理策略。研究者总结认为，这标志着从传统 SFT 向 RL 范式的转变。

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

AI在线附上参考地址

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning
Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning

相关标签：

AI DeepSeek 英伟达

相关资讯

消息称 DeepSeek-R2 AI 模型开发进程因美国当局英伟达 H20 芯片出口限制而延迟

消息称 DeepSeek-R2 AI 模型开发进程因美国当局英伟达 H20 芯片出口限制而延迟

由于美国当局对英伟达H20芯片的出口限制，DeepSeek R2 AI模型的开发进程被迫延迟。这不仅影响了新模型的研发，也对现有R1模型的实际部署造成困扰。#AI芯片# #DeepSeek#

6/27/2025 8:09:47 AM 漾仔

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

成本打下来了，需求更多才对？春节这几天，国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆（参见《英伟达市值蒸发近 6000 亿美元，而 DeepSeek 刚刚又开源新模型》）。

1/29/2025 6:43:00 PM 机器之心

英伟达：DeepSeek-R1 模型现已上线 NIM 微服务平台

英伟达：DeepSeek-R1 模型现已上线 NIM 微服务平台

英伟达今日宣布，DeepSeek-R1 模型现已在 build.nvidia.com 上作为 NVIDIA NIM 微服务预览版提供。DeepSeek-R1 NIM 微服务可以在单个 NVIDIA HGX H200 系统上每秒提供多达 3,872 tokens。

1/31/2025 8:46:46 AM 浩渺