AI在线 AI在线

对齐伪装

Claude团队新研究:为什么有的模型假装对齐有的不会

不圆 发自 凹非寺. 量子位 | 公众号 QbitAI大模型“当面一套背后一套”的背后原因,正在进一步被解开。 Claude团队最新研究结果显示:对齐伪装并非通病,只是有些模型的“顺从性”会更高。
7/9/2025 5:24:22 PM
不圆
  • 1