AI在线 AI在线

Skywork-Reward-V2

昆仑万维再次开源奖励模型Skywork-Reward-V2

2025年7月4日,昆仑万维乘势而上,继续开源第二代奖励模型Skywork-Reward-V2系列。 此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。 奖励模型在从人类反馈中强化学习(RLHF)过程中起着关键作用。
7/5/2025 7:46:41 AM
AI在线
  • 1