AI在线 AI在线

模型,忏悔,OpenAI,奖励,诚实,行为,回答,报告,违规行为,指令

​OpenAI 推出 “忏悔” 机制 旨在揭示 AI 潜在不当行为

近日,OpenAI 正在测试一种新方法,旨在揭示模型的潜在问题,比如奖励黑客行为或忽视安全规则。 这一新机制被称为 “忏悔”,其核心理念是训练模型在单独的报告中承认规则违反,即使原始回答存在欺骗性,仍然会因诚实而获得奖励。 在强化学习的过程中,模型通常会追求最高的奖励。
12/5/2025 11:26:24 AM
AI在线