AI在线 AI在线

Scaling RL

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B模型的数学推理能力和顶尖商业大模型差在哪里? 香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方:. 通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一众商业大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。
7/9/2025 2:58:32 PM
不圆
  • 1