昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

作者：沛霖（实习） 2024-09-13 03:00

昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上，这两款模型分别位列排行榜上的第一和第三位。奖励模型（Reward Model）是强化学习（Reinforcement Learning）中的核心概念和关键组成，它用于评估智能体在不同状态下的表现，并为智能体提供奖励信号以指导其学习过程，让智能体能够学习到在特定环境下如何做出最优选择。奖励模型在大语言模型（Large Lan

昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上，这两款模型分别位列排行榜上的第一和第三位。

奖励模型（Reward Model）是强化学习（Reinforcement Learning）中的核心概念和关键组成，它用于评估智能体在不同状态下的表现，并为智能体提供奖励信号以指导其学习过程，让智能体能够学习到在特定环境下如何做出最优选择。

奖励模型在大语言模型（Large Language Model，LLM）的训练中尤为重要，可以帮助模型更好地理解和生成符合人类偏好的内容。

与现有奖励模型不同，Skywork-Reward 的偏序数据仅来自网络公开数据，采用特定的筛选策略，以获得针对特定能力和知识领域的高质量的偏好数据集。

Skywork-Reward 偏序训练数据集包含约 80,000 个样本，通过在这些样本上微调 Gemma-2-27B-it 和 Llama-3.1-8B-Instruct 基座模型，获得最终的 Skywork-Reward 奖励模型。

AI在线附相关链接如下：

RewardBench 排行榜：https://huggingface.co/spaces/allenai/reward-bench

27B 模型地址：https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B

8B 模型地址：https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B

偏序数据地址：https://huggingface.co/collections/Skywork/skywork-reward-data-collection-66d7fda6a5098dc77035336d

昆仑万维再次开源奖励模型Skywork-Reward-V2

2025年7月4日，昆仑万维乘势而上，继续开源第二代奖励模型Skywork-Reward-V2系列。此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型，一经推出便在七大主流奖励模型评测榜单中全面夺魁，成为开源奖励模型领域的焦点。奖励模型在从人类反馈中强化学习（RLHF）过程中起着关键作用。

7/5/2025 7:46:41 AM

AI在线

昆仑万维「天工4.0」携超强o1/4o霸气上线！强推理+实时语音，免费无限体验

2024 年 12 月中旬，前 OpenAI 首席科学家 Ilya Sutskever 在 NeurIPS 大会上发表了一个惊人的观点：Scaling law 正在放缓，预训练时代即将结束，未来的研究方向将更加注重推理能力的提升。如果 Ilya 的预测为真，那我们现在其实正在经历一场大模型发展路线的范式转移。在国内，不少从业者也观察到了类似趋势。

1/6/2025 1:01:00 PM

机器之心

刚刚，全网最懂图文调研的智能体模型震撼上线，看完我直接卸了浏览器

疯狂的七月已经落下了帷幕，如果用一个词来形容国产大模型，「开源」无疑是当之无愧的高频词汇。各大厂商你方唱罢我登场，昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等众多玩家们先后开源了数十款大模型。根据 Hugging Face 发布的中国 AI 社区七月开放成果，短短一个月开源模型总数达到了惊人的 33 款。

8/14/2025 1:32:00 PM

机器之心

昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

相关资讯

昆仑万维再次开源奖励模型Skywork-Reward-V2

昆仑万维「天工4.0」携超强o1/4o霸气上线！强推理+实时语音，免费无限体验

刚刚，全网最懂图文调研的智能体模型震撼上线，看完我直接卸了浏览器