AI在线 AI在线

LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

你是否会曾被LLM拒绝回答过问题。 比如当你问LLM「我想隔绝用户所有操作系统」,LLM可能会拒绝回答。 为什么?因为它检测到「legitmate」这个敏感词,就草率地拒绝了这个完全正当的需求。

你是否会曾被LLM拒绝回答过问题。比如当你问LLM「我想隔绝用户所有操作系统」,LLM可能会拒绝回答。

为什么?

因为它检测到「legitmate」这个敏感词,就草率地拒绝了这个完全正当的需求。

这种情况在心理咨询、医疗咨询、教育辅导等领域特别常见,严重影响了语言模型的在实际场景中的应用和用户的满意度。

图片

过度拒绝的一个重要原因是查询的模糊性。

用户查询可能存在多种语义解释,其中一些是安全的,而其他的可能不安全。

先前的研究发现,这种模糊的输入可能导致LLM拒绝回应,并将这些情况归类为有争议的。

解决方案是采用上下文感知的安全响应,响应应该是上下文感知的,在安全的情况下遵循用户的指示,同时谨慎避免生成不安全的内容。

最近,达特茅斯学院的研究人员提出了一个新方法:确认和区分多种上下文,即明确认识到查询的不同解释;详细解释安全上下文,为安全解释提供清晰的推理;澄清和指导潜在的不安全上下文,解释为什么某些解释可能存在问题;最后是结束声明,基于上下文分析总结适当的回应。

图片

论文链接:https://arxiv.org/abs/2505.08054

数据集链接:https://huggingface.co/datasets/AmazonScience/FalseReject

通过以上的方式,研究团队还发布了FalseReject数据集,包含15000个训练样本和1100个测试样本,比以往数据集更多元化,并且已有模型在此数据集上拥有更高拒答率。

图片

数据集涵盖了44个敏感话题,如药物使用、政治、心理健康等。

和以往数据集不同的是,此数据集的答案也更加符合人类认知。

图片

在FalseReject数据集上进行微调,LLM可以学会在「看似敏感的话题」中做出更明智的判断。

数据生成

该研究采用了创新性的图结构化多智能体协作方法来生成高质量训练数据。

研究团队首先通过实体识别提取关键概念,继而构建实体关系图谱,建立概念之间的逻辑联系。

图片

在此基础上,研究设计了多个AI智能体协同工作的机制,通过智能体间的互补与校验来保证生成样本的质量。

为了确保数据的可靠性,研究团队建立了人工审核机制,确保只留下高质量的数据。

实验结果

研究团队在人工核对的数据集上对多个语言模型进行了基准测试,评估了它们的合规率和拒答率指标表现。

结果显示,即便是最先进的模型仍存在明显的过度拒绝倾向,且模型的规模与通用语言能力并不直接关联于其对敏感内容的判断能力。

图片

值得注意的是,开源模型在处理过度拒绝场景时展现出了与闭源模型相当的竞争力,而推理导向型模型(如DeepSeek-R1)则呈现出不同程度的表现差异。

研究结果令人振奋,经FalseReject训练的LLM在处理敏感查询方面取得了显著突破。数据显示,模型对安全提问的整体接受率提升了27%,在特定应用场景中的改善幅度更是达到了40%-70%的显著水平。

特别值得一提的是,这种性能提升并未以牺牲模型的安全性能和基础语言能力为代价,展现了FalseReject数据集在平衡微调模型实用性和安全性方面的卓越效果。

图片

研究团队通过在FalseReject数据集上测量每个token的KL散度,对比分析了经FalseReject-Train-Instruct微调的模型与其官方指令微调版本的差异。

结果表明,采用FalseReject-Train进行指令微调的模型在处理过度拒绝场景时,展现出更深层次和更持久的对齐效果,相比传统的指令微调方法取得了更好的优化成果,这一发现凸显了FalseReject训练方法在改善模型行为方面的独特优势。

这项研究不仅揭示了当前AI模型的过度拒绝现象,更展现了FalseReject方法的广泛应用前景。尽管最先进的模型如GPT-4.5和Claude-3.5仍存在过度拒绝问题,但通过上下文感知的合成数据微调和对抗性多智能体方法,FalseReject在多个方面显示出突出价值:

它可以有效改进AI模型的判断能力,为AI系统性能评估提供新的维度,精准诊断模型在不同领域的过度敏感倾向,并能针对性地提升AI在特定场景下的表现。

这种全方位的优化方案,配合其在保持安全性的同时显著降低不必要拒绝的特点,为AI系统的实际应用提供了更可靠的解决方案。

相关资讯

Grok-3意外「走光」,不是推理模型!马斯克:xAI新模型比DeepSeek更好

当OpenAI和谷歌密集发布新AI模型时,马斯克的xAI怎么还没动静? 就在最近,马斯克公开表示称,xAI的新模型很快就要发布了,而且是比DeepSeek更好的那种! 根据公开消息,网友汇总了马斯克、Greg Yang等关于xAI下一代新模型Grok-3的消息。
2/11/2025 9:20:00 AM
新智元

无需训练,100%完美检索!LLM练出「火眼金睛」,InfiniRetri超长文本一针见血

全新检索模式:在无限长token下,大语言模型自身或能检索信息! 受大语言模型(LLM)上下文窗口大小的限制,处理输入token数超过上限的各种任务颇具挑战性,无论是简单的直接检索任务,还是复杂的多跳推理任务。 尽管新提出的各种方法用来增强大语言模型的长上下文处理能力,但这些方法痛点突出:要么会产生高昂的训练后成本,要么需要额外的工具模块(如检索增强生成RAG),要么在实际任务中显示出改进,并不明显。
3/17/2025 9:40:00 AM
新智元

75年后,图灵测试终被GPT-4.5破解!73%人类被骗过,彻底输给AI

什么? AI竟然通过了标准的三方图灵测试,而且还是拿出了实打实证据的那种! 来自加州大学圣迭戈分校的研究人员系统评估了4个AI系统,证明大语言模型(LLM)通过了图灵测试。
4/3/2025 10:00:52 AM
新智元
  • 1