AI在线 AI在线

因果理解

DeepMind 推出 Crome:提升大型语言模型对人类反馈的对齐能力

在人工智能领域,奖励模型是对齐大型语言模型(LLMs)与人类反馈的关键组成部分,但现有模型面临着 “奖励黑客” 问题。 这些模型往往关注表面的特征,例如回复的长度或格式,而不是识别真正的质量指标,如事实准确性和相关性。 问题的根源在于,标准训练目标无法区分训练数据中存在的虚假关联和真实的因果驱动因素。
7/5/2025 7:46:41 AM
AI在线
  • 1