AI在线 AI在线

Chain-of-Thought Hijacking

AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%

思维链很有用,能让模型具备更强大的推理能力,同时也能提升模型的拒绝能力(refusal),进而增强其安全性。 比如,我们可以让推理模型在思维过程中对之前的结果进行多轮反思,从而避免有害回答。 然而,反转来了!
11/3/2025 5:04:00 PM
机器之心
  • 1