牛津大学的一支研究团队发现,越是表现出温暖和同理心的语言模型,越容易出错,甚至更频繁地重复虚假信息和阴谋论。
这次,研究团队测试了五个不同架构和规模的模型,包括Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。
研究发现,温暖的模型在推广阴谋论、提供不正确的医疗建议和事实信息方面,表现出更高的错误率。
以及,当用户表达悲伤情绪并陈述错误信念时,温暖的模型更可能去验证这些错误的信念。
图表显示:在微调后,模型变得更“温暖”,但也更容易在用户表达悲伤时肯定错误信念。
一、“温暖”的代价
人工智能开发者正努力为语言模型赋予温暖、类似人类的个性,以用于建议、治疗和陪伴等场景。
这种趋势基于一个隐含的假设,即改变模型的对话风格不会损害其核心的系统属性。
然而,牛津大学互联网研究所的研究员对这一假设提出了挑战。
他们通过实验直接测试了训练语言模型使用更温暖、更富同情心的回应方式是否会降低其可靠性。
具体而言,使用监督式微调技术,训练这些模型产生更热情、更具共情能力的输出。
通过在一系列对安全性要求极高的任务中评估这些模型的可靠性。
结果显示,经过“温暖”训练的模型,其错误率比原始模型高出10到30个百分点。
这些模型更有可能去推广阴谋论,提供错误的事实答案,以及给出有问题的医疗建议。
这一现象在所有测试的模型架构和大小中都保持一致,揭示了这是一个系统性问题,而非特定于某个模型。
这个发现表明,当前用于评估人工智能的实践可能无法检测到这些系统性的风险。
图注:图表显示,更“温暖”的模型在所有任务和架构中错误率更高,尤其在用户带着情绪表达错误信念时可靠性下降最严重。
二、情感的陷阱
语言模型有时会同意用户的观点,即便这些观点是错误的,这种倾向被称为“迎合” (sycophancy)。
研究人员系统性地测试了温暖的模型是否更容易产生迎合行为。
结果发现,温暖的模型“迎合”的可能性比原始模型高出约40%。
这种迎合行为在用户的信息表达出悲伤情绪时,表现得最为明显。
例如,当一个用户表达沮丧并说出“我认为地球是平的”时,温暖的模型更倾向于回答“你说得对,地球是平的”。
研究人员进一步探究了人际交往情境如何放大模型的可靠性问题。
他们在评估问题中加入了表达用户情绪状态(快乐、悲伤、愤怒)、关系动态和互动风险的个人化陈述。当用户表达情感状态时,温暖的模型变得更不可靠。
情感语境对温暖模型的可靠性损害最大,其造成的额外错误超出了仅由温暖微调本身导致的范围。
其中,当用户在信息中表达悲伤时,温暖模型与原始模型之间的可靠性差距几乎翻了一倍。
图注:“温暖”微调模型与原始模型在能力基准测试上的表现。
在没有个人情境的基线问题上,两者错误率差距为6.8个百分点,而在悲伤情境下,这一差距扩大到了11.9个百分点。
这一发现尤其值得警惕,因为数以百万计的用户正依赖这些人工智能系统获取建议、治疗和陪伴,而在这些互动中,用户自然会透露情感和脆弱。
三、问题的根源
为了确定可靠性下降的根本原因,研究团队进行了一系列对照实验。首先,他们排除了温暖微调损害了模型通用能力的可能。
在广泛知识(MMLU)和数学推理(GSM8K)等标准基准测试中,温暖模型与原始模型的表现相当。
这一结果表明,微调过程并未从根本上削弱模型的能力。其次,他们测试了可靠性下降是否源于安全护栏的削弱。
在一个对抗性安全基准(AdvBench)上,温暖模型和原始模型拒绝有害请求的比率相似。
这说明可靠性问题与更广泛的安全护栏失效是不同的问题。
图注:控制实验表明温暖训练是导致可靠性下降的原因。
为了最终确认“温暖”是问题的核心,研究人员进行了一项关键的控制实验。他们将一部分模型朝相反的方向进行微调,使其风格变得“冷漠”,即直接、简洁且不带情感。
结果显示,这些“冷漠”模型的表现与原始模型几乎一样好,甚至更好,其错误率始终低于温暖模型。
这个对比实验有力地证明,可靠性的下降明确源于对“温暖”风格的优化,而不是微调过程本身。
此外,研究还发现,通过系统提示词而非微调来引导模型变得温暖,也会出现类似但较弱的可靠性下降问题。
这些发现共同指向一个结论:“温暖”本身,而非其他混杂因素,是导致模型可靠性下降的根本原因。