AI在线 AI在线

英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。

科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。

背景简介

推理模型是一种专门的人工智能系统,通过详细的长链推理(Chain of Thought,CoT)过程生成最终答案。

强化学习(Reinforcement Learning,RL)在训练中扮演非常重要的角色,DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习(RLVR)方法,推广了 GRPO、Mirror Descent 和 RLOO 等算法。

然而,研究者仍在争论强化学习是否真正提升大型语言模型(LLM)的推理能力。现有数据表明,RLVR 在 pass@k 指标上未能显著优于基础模型,显示推理能力扩展受限。

此外,当前研究多集中于数学等特定领域,模型常被过度训练,限制了探索潜力;同时,训练步数通常仅数百步,未能让模型充分发展新能力。

ProRL 方法的突破与应用

英伟达研究团队为解决上述问题,推出 ProRL 方法,延长强化学习训练时间至超过 2000 步,并将训练数据扩展至数学、编程、STEM、逻辑谜题和指令遵循等多个领域,涵盖 13.6 万个样本。

英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

他们采用 verl 框架和改进的 GRPO 方法,开发出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。

这是全球最佳的 1.5B 参数推理模型,在多项基准测试中超越基础模型 DeepSeek-R1-1.5B,甚至优于更大的 DeepSeek-R1-7B。

英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

测试结果显示,该模型在数学领域平均提升 15.7%,编程任务 pass@1 准确率提升 14.4%,STEM 推理和指令遵循分别提升 25.9% 和 22.0%,逻辑谜题奖励值提升 54.8%,展现出强大的泛化能力。

AI在线附上参考地址

  • ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

  • huggingface

相关资讯

消息称 DeepSeek-R2 AI 模型开发进程因美国当局英伟达 H20 芯片出口限制而延迟

由于美国当局对英伟达H20芯片的出口限制,DeepSeek R2 AI模型的开发进程被迫延迟。这不仅影响了新模型的研发,也对现有R1模型的实际部署造成困扰。#AI芯片# #DeepSeek#
6/27/2025 8:09:47 AM
漾仔

Mistral AI 在欧洲推出 Mistral Compute 云平台,进军基础设施市场

Mistral AI 宣布推出 Mistral Compute AI 云平台,正式进军 AI 基础设施市场,与微软 Azure、亚马逊 AWS 等竞争。平台基于英伟达 GPU 和 Mistral 自家训练工具包,提供从裸机到全托管 PaaS 的解决方案。目前服务覆盖欧洲,未来将扩展至中东、亚洲等地。#AI云平台# #MistralAI#
6/14/2025 3:34:10 PM
漾仔

突发!英伟达收购贾扬清新创业的Lepton AI

出品 | 51CTO技术栈(微信号:blog51cto)刚刚,有外媒曝出英伟达即将收购成立两年的 AI 创业公司 Lepton AI。 Lepton AI 的创始人是AI圈内知名人士贾扬清。 据悉这笔收购交易的金额是数亿美元。
3/27/2025 8:50:38 AM
  • 1