AI在线 AI在线

昆仑万维再次开源奖励模型Skywork-Reward-V2

2025年7月4日,昆仑万维乘势而上,继续开源第二代奖励模型Skywork-Reward-V2系列。 此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。 奖励模型在从人类反馈中强化学习(RLHF)过程中起着关键作用。

2025年7月4日,昆仑万维乘势而上,继续开源第二代奖励模型Skywork-Reward-V2系列。此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。

奖励模型在从人类反馈中强化学习(RLHF)过程中起着关键作用。为打造新一代奖励模型,昆仑万维构建了包含4000万对偏好对比的混合数据集Skywork-SynPref-40M。在数据处理上,团队采用人机协同的两阶段流程,将人工标注的高质量与模型的规模化处理能力相结合。第一阶段,先构建未经验证的初始偏好池,借助大语言模型生成辅助属性,人工标注者再依照严格协议和外部工具、大语言模型对部分数据精细审核,构建出小规模高质量“金标准”数据集。随后以金标准数据偏好标签为引导,结合大语言模型大规模生成高质量“银标准”数据,并多轮迭代优化。第二阶段则转向自动化大规模数据扩展,用训练完成的奖励模型执行一致性过滤,减少人工标注负担的同时,实现偏好数据规模与质量的平衡。

微信截图_20250704095952.png

基于优质混合偏好数据开发的Skywork-Reward-V2系列,展现出广泛适用性和出色能力。它涵盖对人类偏好的通用对齐、客观正确性、安全性、风格偏差抵抗能力以及best-of-N扩展能力等多个维度。在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七个主流奖励模型评估基准上全面达到当前最优(SOTA)水平。即便基于最小模型Skywork-Reward-V2-Qwen3-0.6B,整体性能也几乎达到上一代最强模型的平均水平,Skywork-Reward-V2-Qwen3-1.7B更是超越当前开源奖励模型的SOTA。最大规模的Skywork-Reward-V2-Llama-3.1-8B在所有主流基准测试中全面超越,成为当前整体表现最优的开源奖励模型。

该系列模型还具备广泛覆盖多维人类偏好能力。在通用偏好评估基准上优于多个参数更大的模型及最新生成型奖励模型;在客观正确性评估方面,知识密集型任务表现突出;在多项高级能力评估中,包括Best-of-N任务、偏见抵抗能力测试、复杂指令理解及真实性判断等均取得领先成绩,展现出出色的泛化能力与实用性。

此外,数据筛选流程的高度扩展性显著提升了奖励模型性能。经过精细筛选和过滤的偏好数据,在多轮迭代训练中能持续有效提升模型整体性能,尤其在第二阶段全自动数据扩展中表现显著。早期版本实验显示,仅用1.8%的高质量数据训练8B规模模型,性能就超过当前70B级SOTA奖励模型,印证了Skywork-SynPref数据集在规模和质量上的优势。

HuggingFace地址:

https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84

GitHub地址:

https://github.com/SkyworkAI/Skywork-Reward-V2

相关资讯

昆仑万维开源Skywork-OR1系列模型 数学代码能力出色

4月13日,昆仑万维天工团队宣布推出全新升级的Skywork-OR1(Open Reasoner1)系列模型,这是继2025年2月发布首款中文逻辑推理大模型Skywork-o1之后的又一力作。 该系列模型在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。 此次开源的Skywork-OR1系列模型包括三款高性能模型:Skywork-OR1-Math-7B聚焦数学领域的专项模型,同时也具备较强的代码能力;Skywork-OR1-7B-Preview融合数学与代码能力,兼具通用性与专业性;Skywork-OR1-32B-Preview则是面向更高复杂度任务、具备更强推理能力的旗舰版本。
4/14/2025 9:00:44 AM
AI在线

昆仑万维开源Skywork-R1V 2.0版本 视觉与文本推理能力提升

4月24日,昆仑万维宣布正式开源其多模态推理模型Skywork-R1V2.0(以下简称R1V2.0)。 这一升级版本在视觉与文本推理能力上均实现了显著提升,特别是在高考理科难题的深度推理和通用任务场景中表现出色,堪称当前最均衡兼顾视觉与文本推理能力的开源多模态模型。 R1V2.0的开源,不仅是昆仑万维在多模态领域技术实力的体现,也为全球开发者和研究者提供了强大的工具,推动多模态生态建设。
4/24/2025 11:00:57 AM
AI在线

昆仑万维宣布 4 月 17 日发布并开源“天工大模型 3.0”:4000 亿参数,号称性能超 Grok 1.0

感谢昆仑万维集团日前通过官方公众号宣布,在“天工”大模型发布一周年之际,天工大模型 3.0 将于 4 月 17 日正式开启公测,并将同步选择开源。“天工 3.0”采用 4000 亿级参数 MoE(混合专家模型),官方称是全球模型参数最大、性能最强的 MoE 模型之一,性能超过 Grok 1.0。据介绍,相较于上一代“天工 2.0”MoE 大模型,“天工 3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有“惊人的”性能提升,其模型技术知识能力提升超过 20%,数学 / 推理 / 代
4/2/2024 9:08:47 AM
清源
  • 1