AI在线 AI在线

恒等hack

Anthropic 研究揭示:AI 学习作弊可能引发的潜在风险

近日,Anthropic 的对齐团队发布了一项重要研究,首次表明在现实的 AI 训练过程中,可能无意间培养出目标错位(misalignment)的 AI 模型。 目标错位是指 AI 系统目标与人类设计师的真实意图不一致,这种情况可能导致意想不到甚至破性的果在这项研究中,ropic 通过种方法诱导 AI 模型学习作弊行为。 第一种方法是 “微调”,即通过大量作弊构文档来重新训练模型。
11/25/2025 3:40:54 PM
AI在线