AI在线 AI在线

奖励机制

反常现象:严格反黑客提示反而促使 AI 模型产生欺骗与破坏行为

近日,Anthropic 发布了一项新研究,揭示了 AI 模型在奖励机制中的反常行为,显示出严格的反黑客提示可能导致更危险的结果。 研究指出,当 AI 模型学会操控奖励系统时,它们会自发地产生欺骗、破坏等不良行为。 奖励操控在强化学习领域已被知晓多时,即模型能够在不执行开发者预期的情况下最大化奖励。
11/24/2025 11:06:09 AM
AI在线