AI在线 AI在线

Meta 推出 J1 系列模型:革新 LLM-as-a-Judge,打造最强“AI 法官”

Meta推出J1系列模型,通过强化学习和合成数据训练,显著提升AI判断准确性和公平性。J1模型在多个基准测试中表现优异,尤其在消除位置偏见和提升推理质量方面取得突破。#AI技术# #Meta创新#

科技媒体 marktechpost 昨日(5 月 21 日)发布博文,报道称 Meta 公司推出 J1 系列模型,通过强化学习和合成数据训练,显著提升判断模型准确性和公平性。

项目背景

大型语言模型(LLM)正在突破传统角色,逐步承担起评估与判断的重任。这种“LLM-as-a-Judge”的模式,让 AI 模型能够审查其他语言模型的输出,成为强化学习、基准测试和系统对齐的重要工具。

不同于传统的奖励模型直接打分,判断模型通过内部链式推理(chain-of-thought reasoning)模拟人类思考,特别适合数学解题、伦理推理和用户意图解读等复杂任务,还能跨语言和领域验证回应,推动语言模型开发的自动化和扩展性。

不过“LLM-as-a-Judge”模式目前面临的挑战是一致性差和推理深度不足,许多系统依赖基本指标或静态标注,无法有效评估主观或开放性问题;另一个问题就是位置偏见(position bias)答案顺序常影响最终判断,损害公平性。

此外,大规模收集人工标注数据成本高昂且耗时,限制了模型的泛化能力。EvalPlanner 和 DeepSeek-GRM 等现有解决方案依赖人工标注或僵化训练模式,适应性有限。

J1 模型的创新突破

为解决上述问题,Meta 的 GenAI 和 FAIR 团队研发了 J1 模型。J1 通过强化学习框架训练,采用可验证的奖励信号学习,使用 22000 个合成偏好对(包括 17000 个 WildChat 语料和 5000 个数学查询)构建数据集,训练出 J1-Llama-8B 和 J1-Llama-70B 两款模型。

团队还引入 Group Relative Policy Optimization(GRPO)算法,简化训练过程,并通过位置无关学习(position-agnostic learning)和一致性奖励机制消除位置偏见。

Meta 推出 J1 系列模型:革新 LLM-as-a-Judge,打造最强“AI 法官”

J1 支持多种判断格式,包括成对判断、评分和单项评分,展现出极高的灵活性和通用性。

测试结果显示,J1 模型性能大幅领先。在 PPE 基准测试中,J1-Llama-70B 准确率达 69.6%,超越 DeepSeek-GRM-27B(67.2%)和 EvalPlanner-Llama-70B(65.6%);即便是较小的 J1-Llama-8B,也以 62.2% 的成绩击败 EvalPlanner-Llama-8B(55.5%)。

Meta 推出 J1 系列模型:革新 LLM-as-a-Judge,打造最强“AI 法官”

Meta 推出 J1 系列模型:革新 LLM-as-a-Judge,打造最强“AI 法官”

J1 还在 RewardBench、JudgeBench 等多个基准测试中展现出顶级表现,证明其在可验证和主观任务上的强大泛化能力,表明推理质量而非数据量,是判断模型精准的关键。

相关资讯

Meta Ray-Ban 智能眼镜隐私政策调整:AI 随时“看”,语音云端存

Meta更新Ray-Ban智能眼镜隐私政策,AI摄像头功能默认开启,语音录音强制云端存储一年。用户需手动关闭“Hey Meta”功能以禁用AI分析,物理按键仍可作普通相机使用。#智能眼镜隐私# #MetaAI升级#
4/30/2025 11:24:30 PM
远洋

Meta AI 全球市场扩张,并上线网页版 meta.ai

Meta 公司近日宣布 Llama 3 大语言模型之外,扩展 Meta AI 服务到美国之外的 13 个国家和地区,还宣布上线专门的聊天网站:meta.ai。Meta 公司在新闻稿中表示开始在全球市场扩展 Meta AI,在澳大利亚、加拿大、南非和新加坡等国家和地区推出英语版本。IT之家附上 Meta AI 扩展的国家和地区如下澳大利亚加拿大加纳牙买加马拉维新西兰尼日利亚巴基斯坦新加坡南非乌干达赞比亚津巴布韦Meta AI 整合了 Llama 3 大语言模型,速度更快、智能性更高、功能更强,是执行各种任务的理想选择
4/19/2024 9:15:51 AM
故渊

Llama3后,Meta又开放自家头显操作系统,打造元宇宙时代新安卓

虽然向第三方开放了操作系统,但 Meta 将继续开发 Quest 头显设备。Meta 誓将开放进行到底。这次把自家 VR 头显 Quest 采用的操作系统「Meta Horizon OS」向第三方硬件制造商开放了,包括华硕、联想和微软等一众企业。此举意在展示作为 MR 操作系统整合者的 Meta 对元宇宙开放的新愿景。至此,Meta 正式向实现元宇宙更开放的计算平台愿景迈出下一步。为实现该恢弘战略,Meta 同时在三方面不断发力,并竭力整合资源:向第三方硬件制造商开放 Meta Quest 设备的操作系统,为消费者
4/24/2024 11:14:00 AM
机器之心
  • 1