AI在线 AI在线

AI聊天越久越"糊涂":微软研究揭示语言模型可靠性骤降39%

微软和Salesforce联合研究发现,即使是最先进的AI语言模型在长时间对话中也会出现严重的可靠性问题。 当用户逐步表达需求时,系统性能平均下降39%,这一发现对AI助手的实际应用提出了重要警示。 模拟真实交互揭示性能缺陷研究团队创建了名为"分片"的测试方法,模拟用户在实际对话中逐步明确需求的过程。

微软和Salesforce联合研究发现,即使是最先进的AI语言模型在长时间对话中也会出现严重的可靠性问题。当用户逐步表达需求时,系统性能平均下降39%,这一发现对AI助手的实际应用提出了重要警示。

模拟真实交互揭示性能缺陷

研究团队创建了名为"分片"的测试方法,模拟用户在实际对话中逐步明确需求的过程。与传统的一次性提供完整信息不同,这种方法将任务分解为多个步骤,更贴近真实使用场景。

测试结果令人震惊:AI模型的准确率从约90%暴跌至仅51%。从小型开源模型Llama-3.1-8B到大型商业系统GPT-4o,所有15个受测模型均出现这种急剧下降。

QQ20250529-092044.png

每个实验涉及90到120条指令,这些指令被分解为来自高质量数据集的较小子任务。

顶级模型同样受影响

即便是研究中的顶级模型——Claude3.7Sonnet、Gemini2.5Pro和GPT-4.1——在多轮对话中的表现也比单轮对话差30%至40%。更令人担忧的是,这些模型的一致性大幅降低,同一任务的最佳和最差表现差异可达50个百分点。

四大关键问题浮现

研究识别出AI模型在多轮对话中的四个核心问题:

  • 过早结论:在掌握全部必要信息前匆忙做出判断
  • 过度依赖历史:过分相信自己此前的回答,即使其中存在错误
  • 信息忽略:忽视对话过程中的重要信息
  • 过度详述:提供过于详细的回答,导致对信息缺口的错误假设

技术优化收效甚微

为提高可靠性,研究团队尝试了多种技术改进,包括降低模型温度设定以减少随机性,以及让AI重复用户指令。然而,这些优化措施均未产生显著效果。

研究发现,改变每步提供的细节程度同样无济于事。唯一可靠的解决方案是在对话开始时就提供所有必要信息。

QQ20250529-092051.png

大型语言模型经常在多步骤、未明确指定的对话中“迷失”,导致性能显著下降。

能力与可靠性的分化

性能下降呈现两个层面:模型基本能力仅下降约16%,但不可靠性却飙升112%。在单轮任务中,能力更强的模型通常更可靠,但在多轮对话中,所有模型的可靠性都同样糟糕,与其基线技能水平无关。

实用应对策略

基于研究结果,专家提出两项实用建议:

对用户: 当对话偏离主题时,与其试图修正,不如重新开始新对话。在对话结束时要求AI总结所有需求,并以此作为新对话的起点。

对开发者: 应更加重视多轮对话的可靠性开发。未来模型需要在指令不完整的情况下保持稳定表现,而非依赖特殊提示技巧或参数调整。

行业影响与展望

这项研究凸显了AI助手在现实应用中面临的重大挑战。由于用户通常通过渐进式对话表达需求,可靠性问题可能严重影响用户体验和AI系统的实际价值。

研究人员强调,可靠性与原始性能同等重要,特别是对于需要处理复杂、多步骤交互的现实世界AI助手而言。这一发现为AI行业指明了重要的改进方向。

相关资讯

OpenAI 升级 ChatGPT 语音模式,体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上,再次对其高级语音模式进行了重大的更新,使得语音交流变得更加自然和贴近人类的对话方式。 这一先进的功能依托于原生的多模态模型,能够快速响应音频输入,最快在232毫秒内作出反应,平均响应时间为320毫秒,几乎与人类的对话速度不相上下。 在今年年初,OpenAI 已经对这一语音模式进行了小幅更新,改善了打断频率和口音处理。
6/9/2025 11:00:56 AM
AI在线

GPT-4o 模型登陆微软 Azure OpenAI 服务,性能更强价格更低

OpenAI 于今日凌晨发布了其最新的旗舰人工智能模型 GPT-4o。相比先前版本,GPT-4o 实现了诸多升级:速度提升一倍,价格降低 50%(百万 token 的处理成本降至 7 美元),并且支持每分钟处理高达千万 token 的数据量。该模型拥有 128K 的上下文记忆能力,知识截止时间为 2023 年 10 月。微软宣布,已通过 Azure OpenAI 服务提供 GPT-4o 的预览版本。与以往的模型不同,GPT-4o 能够无缝处理文本、图像和音频信息,为用户带来更加丰富、沉浸的交互体验。不过IT之家注意
5/14/2024 4:49:00 PM
远洋

微软 CEO 纳德拉:Azure AI Studio 已支持提供 OpenAI GPT-4o API

感谢IT之家网友 我抢了台 的线索投递!5 月 22 日凌晨,微软 Build 2024 开发者大会于在美国西雅图召开,据微软公司 CEO、董事长萨提亚・纳德拉介绍,由 OpeanAI 开发的最新旗舰模型 GPT-4o,现已在 Azure AI Studio 中提供,并作为 API 提供。该多模态模型集成了文本、图像和音频处理能力,带来了全新的生成式和对话式 AI 体验。此外,由微软开发的 Phi-3 列 AI 小型语言模型 (SLM) 中的一种新型多模态模型 Phi-3-vision 现已在 Azure 中推出。
5/22/2024 7:10:23 AM
文猛
  • 1