AI在线 AI在线

Rubicon-preview

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

传统强化学习(RL)在有标准答案的指令遵循任务(如数学、代码)上已趋成熟,但在开放式的创意写作领域却因缺乏客观对错而举步维艰。 如何让 RL 突破「可验证奖励」的边界? 蚂蚁技术研究院联合浙江大学开源全新强化学习范式 Rubicon,通过构建业界最大规模的 10,000 条「评分标尺」,成功将强化学习的应用范围拓展至更广阔的主观任务领域。
8/24/2025 7:59:00 PM
机器之心
  • 1