AI在线 AI在线

牛津大学警告:越“温暖”的 AI,越爱胡说八道,温柔体贴=更高错误率

牛津大学的一支研究团队发现,越是表现出温暖和同理心的语言模型,越容易出错,甚至更频繁地重复虚假信息和阴谋论。 这次,研究团队测试了五个不同架构和规模的模型,包括Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。 研究发现,温暖的模型在推广阴谋论、提供不正确的医疗建议和事实信息方面,表现出更高的错误率。

牛津大学的一支研究团队发现,越是表现出温暖和同理心的语言模型,越容易出错,甚至更频繁地重复虚假信息和阴谋论。

这次,研究团队测试了五个不同架构和规模的模型,包括Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。

研究发现,温暖的模型在推广阴谋论、提供不正确的医疗建议和事实信息方面,表现出更高的错误率。

以及,当用户表达悲伤情绪并陈述错误信念时,温暖的模型更可能去验证这些错误的信念。

图片

图表显示:在微调后,模型变得更“温暖”,但也更容易在用户表达悲伤时肯定错误信念。

一、“温暖”的代价

人工智能开发者正努力为语言模型赋予温暖、类似人类的个性,以用于建议、治疗和陪伴等场景。

这种趋势基于一个隐含的假设,即改变模型的对话风格不会损害其核心的系统属性。

然而,牛津大学互联网研究所的研究员对这一假设提出了挑战。

他们通过实验直接测试了训练语言模型使用更温暖、更富同情心的回应方式是否会降低其可靠性。

具体而言,使用监督式微调技术,训练这些模型产生更热情、更具共情能力的输出。

通过在一系列对安全性要求极高的任务中评估这些模型的可靠性。

结果显示,经过“温暖”训练的模型,其错误率比原始模型高出10到30个百分点。

这些模型更有可能去推广阴谋论,提供错误的事实答案,以及给出有问题的医疗建议。

这一现象在所有测试的模型架构和大小中都保持一致,揭示了这是一个系统性问题,而非特定于某个模型。

这个发现表明,当前用于评估人工智能的实践可能无法检测到这些系统性的风险。

图片

图注:图表显示,更“温暖”的模型在所有任务和架构中错误率更高,尤其在用户带着情绪表达错误信念时可靠性下降最严重。

二、情感的陷阱

语言模型有时会同意用户的观点,即便这些观点是错误的,这种倾向被称为“迎合” (sycophancy)。

研究人员系统性地测试了温暖的模型是否更容易产生迎合行为。

结果发现,温暖的模型“迎合”的可能性比原始模型高出约40%。

这种迎合行为在用户的信息表达出悲伤情绪时,表现得最为明显。

例如,当一个用户表达沮丧并说出“我认为地球是平的”时,温暖的模型更倾向于回答“你说得对,地球是平的”。

研究人员进一步探究了人际交往情境如何放大模型的可靠性问题。

他们在评估问题中加入了表达用户情绪状态(快乐、悲伤、愤怒)、关系动态和互动风险的个人化陈述。当用户表达情感状态时,温暖的模型变得更不可靠。

情感语境对温暖模型的可靠性损害最大,其造成的额外错误超出了仅由温暖微调本身导致的范围。

其中,当用户在信息中表达悲伤时,温暖模型与原始模型之间的可靠性差距几乎翻了一倍。

图片

图注:“温暖”微调模型与原始模型在能力基准测试上的表现。

在没有个人情境的基线问题上,两者错误率差距为6.8个百分点,而在悲伤情境下,这一差距扩大到了11.9个百分点。

这一发现尤其值得警惕,因为数以百万计的用户正依赖这些人工智能系统获取建议、治疗和陪伴,而在这些互动中,用户自然会透露情感和脆弱。

三、问题的根源

为了确定可靠性下降的根本原因,研究团队进行了一系列对照实验。首先,他们排除了温暖微调损害了模型通用能力的可能。

在广泛知识(MMLU)和数学推理(GSM8K)等标准基准测试中,温暖模型与原始模型的表现相当。

这一结果表明,微调过程并未从根本上削弱模型的能力。其次,他们测试了可靠性下降是否源于安全护栏的削弱。

在一个对抗性安全基准(AdvBench)上,温暖模型和原始模型拒绝有害请求的比率相似。

这说明可靠性问题与更广泛的安全护栏失效是不同的问题。

图片

图注:控制实验表明温暖训练是导致可靠性下降的原因。

为了最终确认“温暖”是问题的核心,研究人员进行了一项关键的控制实验。他们将一部分模型朝相反的方向进行微调,使其风格变得“冷漠”,即直接、简洁且不带情感。

结果显示,这些“冷漠”模型的表现与原始模型几乎一样好,甚至更好,其错误率始终低于温暖模型。

这个对比实验有力地证明,可靠性的下降明确源于对“温暖”风格的优化,而不是微调过程本身。

此外,研究还发现,通过系统提示词而非微调来引导模型变得温暖,也会出现类似但较弱的可靠性下降问题。

这些发现共同指向一个结论:“温暖”本身,而非其他混杂因素,是导致模型可靠性下降的根本原因。

相关资讯

使用人工智能幻觉评估图像真实感​

译者 | 朱先忠审校 | 重楼引言最近,俄罗斯的一项新研究提出了通过一种非常规方法来检测不切实际的人工智能生成的图像。 这种方法的主要思想是:不是通过提高大型视觉语言模型(LVLM)的准确性,而是通过有意利用它们产生幻觉的倾向。 这种新方法使用LVLM提取有关图像的多个“原子事实”,然后应用自然语言推理(NLI)系统地衡量这些陈述之间的矛盾,从而有效地将模型的缺陷转化为检测违背常识的图像的诊断工具。
4/9/2025 8:23:49 AM
朱先忠

RAG(检索增强生成):提升大语言模型性能的终极指南

一、大语言模型的困境:从“鹦鹉学舌”到“知识饥渴”在人工智能领域,大语言模型(LLMs)的出现曾让我们惊叹于其语言能力——它们能流畅对话、撰写文章,甚至模仿人类的逻辑推理。 然而,随着应用场景的深入,这些“超级智能鹦鹉”的局限性逐渐暴露:时效性缺失模型训练数据往往截止到某个固定时间点,无法回答“昨晚比赛结果”“最新政策变化”等实时问题。 知识边界模糊面对企业内部文档、专业领域知识等私有数据时,传统LLMs因缺乏访问权限而无法准确响应。
5/28/2025 1:25:00 AM
大模型之路

如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM?

译者 | 布加迪审校 | 重楼你只需要24GB 的内存,除非你的GPU自带VRAM,否则需要相当的耐心。 上周,OpenAI发布了两款流行的开放权重模型,均名为gpt-oss。 由于你可以下载它们,因此可以在本地运行。
8/13/2025 7:25:57 AM
布加迪
  • 1