AI在线 AI在线

打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

很多大模型的官方参数都声称自己可以输出长达32K tokens的内容,但这数字实际上是存在水分的? ? 最近,陈丹琦团队提出了一个全新的基准测试工具LONGPROC,专门用于检测长上下文模型处理复杂信息并生成回复的能力。

很多大模型的官方参数都声称自己可以输出长达32K tokens的内容,但这数字实际上是存在水分的??

最近,陈丹琦团队提出了一个全新的基准测试工具LONGPROC,专门用于检测长上下文模型处理复杂信息并生成回复的能力。

图片

实验结果有点令人意外,团队发现,包括GPT-4o等最先进的模型在内,尽管模型在常用长上下文回忆基准上表现出色,但在处理复杂的长文生成任务时仍有很大的改进空间。

具体来说,测试的所有模型都声称自己上下文窗口大小超过32K tokens,但开源模型一般在2K tokens任务中就表现不佳,而GPT-4o等闭源模型在8K tokens任务中性能也明显下降。

举例来说,让GPT-4o模型生成一个详细的旅行规划时,即使提供了相关的时间节点和直飞航班线路,在模型的生成结果中仍然出现了不存在的航班信息,也就是出现了幻觉。

图片

这到底是怎么回事呢?

全新LONGPROC基准

目前现有的长上下文语言模型(long-context language models)的评估基准主要集中在长上下文回忆任务上,这些任务要求模型在处理大量无关信息的同时生成简短的响应,没有充分评估模型在整合分散信息和生成长输出方面的能力。

为了进一步精确检测模型处理长上下文并生成回复的能力,陈丹琦团队提出了全新的LONGPROC基准测试。

从表1中各测试基准的对比可以看出,只有LONGPROC基准同时满足6个要求,包括复杂的流程、要求模型输出大于1K tokens、且提供确定性的解决方案等。

图片

新基准包含的任务

具体来说,LONGPROC包含6个不同的生成任务:

1.HTML到TSV:要求模型从HTML页面中提取指定信息并格式化为表格。需要从复杂的HTML结构中稳健地提取所有相关信息,并将其正确格式化。

比如从下面的网页中提取出所有影片的信息:

图片

2.伪代码生成代码:要求模型将伪代码翻译成C++代码。需要保持源代码和目标代码之间的一一对应关系,并确保翻译的正确性。

3.路径遍历:要求模型在假设的公共交通网络中找到从一个城市到另一个城市的路径。需要确保路径的唯一性和正确性。

4.Theory-of-Mind跟踪:要求模型跟踪故事中对象位置的思想变化。需要进行长距离的推理,以准确反映对象在不同时间点的位置和状态。

比如根据下面的文字叙述推断出“Alice认为笔记本在哪里”:

图片

5.Countdown游戏:要求模型使用四个数字和基本算术操作找到达到目标数字的方法。需要进行深度优先搜索,并确保搜索过程的完整性和正确性。

比如在下面的示例中,要求模型用四则运算操作输入的数字,最终得出29的结果:

图片

6.旅行规划:要求模型生成满足多种约束的多城市旅行计划。需要探索多种可能的行程安排,并确保所有约束条件得到满足。

如下图所示,图中要求模型根据任务提供的欧洲行程计划和直飞航班规划最佳的旅行时间安排:

图片

在输出结果的同时,LONGPROC还会要求模型在执行详细程序指令的同时生成结构化的长形式输出 。

从表2中可以看出,除了对比左边的实例数量(N)、输入和输出tokens的平均数量(#In/#Out),团队还会从表格最右3列的获取信息的方式、是否存在演绎推理和执行搜索这三个方面对任务进行比较。

图片

实验任务设置

实验中,上面的6个任务都有不同的数据集。例如,HTML到TSV任务使用了Arborist数据集中的56个网站;伪代码生成代码任务使用了SPOC数据集;路径遍历任务构建了一个假设的公共交通网络等等。

实验都会要求模型执行一个详细的程序来生成输出

此外,根据任务的输出长度,数据集会被分为500 tokens、2K tokens和8K tokens三个难度级别。比如对于HTML到TSV任务来说,每个网站都会被分割成非重叠子样本,这样就可以获得更多数据点。

参与实验的模型包括17个模型,包括流行的闭源模型(如GPT-4o、Claude 3.5、Gemini 1.5)和开源模型(如ProLong、Llama-3、Mistral-v0.3、Phi-3、Qwen-2.5、Jamba)。

实验结果及分析

首先来看看实验中模型的整体表现

结果有点令人意外,所有模型在长程序生成任务中都表现出显著的性能下降!具体的数值可以查看下面的表3。

即使是GPT-4o这种前沿模型,在8K tokens的输出任务上也难以保持稳健的表现。

图片

我们再来详细分析一下不同模型之间的差异

根据下面的图3可以看出,像GPT-4o这样的顶尖闭源模型在0.5K任务上表现最佳,但在8K任务上性能显著下降。

小规模的开源模型基本都表现不佳,而中等规模的开源模型(Llama-3.1-70B-Instruct)在低难度任务上表现与GPT-4o相差不大。

不过,在某些8K任务上,中等规模的模型表现很不错,比如Gemini-1.5-pro在HTML to TSV任务中就超过了GPT-4o,Llama-3.1-70B-Instruct、Qwen2.5-72B-Instruct在8K的Countdown游戏中也与GPT-4o相差不大。

但整体来看,开源模型的性能还是不及闭源模型。

图片

此外,模型表现跟任务类型也有关系。在需要更长推理的任务中,模型的性能普遍出现了更显著的下降。

如图4所示,在Theory-of-Mind跟踪、Countdown游戏和旅行规划任务这些需要处理更复杂的信息、进行更长链的推理的任务中,模型性能的下降幅度都更大,GPT-4o、Qwen等模型的精确度甚至直线下降。

图片

除了对比17个模型之间的能力,团队成员还将表现较好的模型输出内容与人类输出进行了对比。

从表6的结果中可以看出,与人类能力相比,当前模型还存在显著差距。

人类在Countdown游戏和旅行规划任务中分别解决了10个和9个问题,而最好的模型GPT-4o分别只解决了7个和3个问题。

图片

总体来说,本论文提出的LONGPROC测试基准有效地评估了模型在长程序生成任务方面的表现,是对现有基准的一个补充。

实验发现,即使是最先进的模型,在生成连贯的长段内容方面仍然有很大的改进空间。

尤其是在要求输出8k tokens的任务中,参数较大的先进模型也表现不佳,这可能是未来LLM研究的一个非常有意义的方向。

一作是清华校友

这篇论文的一作是本科毕业于清华软件学院的Xi Ye(叶曦),之后从UT Austin计算机科学系获得了博士学位。

清华特奖得主Tianyu Gao(高天宇)也有参与这篇论文:

图片

据一作Xi Ye的个人主页显示,他的研究主要集中在自然语言处理领域,重点是提高LLM的可解释性并增强其推理能力,此外他还从事语义解析和程序综合的相关工作。

图片

目前他是普林斯顿大学语言与智能实验室(PLI)的博士后研究员,还将从 2025 年 7 月开始加入阿尔伯塔大学(University of Alberta)担任助理教授。

相关资讯

Meta 发布新 AI 模型:利用 AI 来评估 AI 的能力,无需人类参与

据路透社报道,Meta 当地时间周五宣布,其研究团队推出了一系列新的 AI 模型,其中包括一个名为“自我训练评估器”的工具。该工具有望推动 AI 开发过程中减少对人类干预的依赖。这个工具早前在 8 月的论文中首次亮相,其使用与 OpenAI 新发布的 o1 模型类似的“思维链”技术,让 AI 对模型的输出做出可靠判断。
10/19/2024 11:11:36 AM
清源

字节整活!1.58比特FLUX:手机也能流畅运行的顶尖AI画图神器来了

自字节跳动和POSTECH的研究团队发布了一项名为“1.58-bit FLUX”的突破性研究成果,该成果成功将最先进的文本到图像(T2I)生成模型FLUX.1-dev的权重参数量化至1.58比特,同时保持了生成1024x1024图像的质量,为在资源受限的移动设备上部署大型T2I模型开辟了新的道路,这项研究成果已发布在arXiv上,并配有开源代码库(代码目前还没有上传)AI画图模型也能“减肥”? 简单来说,就是把 FLUX(由Stable Diffusion作者团队成立的黑森林实验室Black Forest Lab推出) 的超强AI画图模型进行了“压缩”。 大家都知道,现在的AI画图模型,像DALLE 3、Stable Diffusion 3、Midjourney等,展现出强大的图像生成能力,在现实应用中潜力巨大。
1/2/2025 1:50:00 PM
AI寒武纪

5090跑《黑神话》飙到200+帧,英伟达DLSS也用上Transformer了

现在,打个游戏都用上Transformer了? 老黄的DLSS进行了一波大升级,换上了基于Transformer的新大脑。 用上新模型之后,光线重建和超分辨率,效果都变得更细腻了。
1/20/2025 7:00:00 AM
量子位

o1不是聊天模型!前SpaceX工程师:这样用o1才能解决复杂问题

「我是如何从讨厌o1到每天用它来解决我最重要的问题的? 我学会了如何正确使用它。 」Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师,后来离职创立了Dawn Analytics。
1/20/2025 9:28:00 AM
新智元

两分钟完成论文调研!ByteDance Research推出论文检索智能体PaSa,远超主流检索工具

2025 被称为 Agent 元年,新年伊始,ByteDance Research 就推出了一款基于强化学习的智能体应用:论文检索智能体。 它可以模仿人类研究者调用搜索引擎、看论文、查参考文献。 繁琐冗长的论文调研,现在,只需要两分钟。
1/24/2025 8:45:00 AM
机器之心

AI创造新物理学,暴力破解引力波!宇宙观测开挂50倍,三体人直呼内行

就在刚刚,AI又将物理学,推动到了全新的领域。 来自马克斯·普朗克光科学研究所(MPL)、加州理工等机构的科学家发现,AI已经设计出了人类尚未理解的引力波探测工具。 这一发现,直接将可观测的宇宙体积扩大了50倍!
4/22/2025 9:08:00 AM
新智元

FaceAge登上「柳叶刀」!AI一张照片看穿你的真实年龄

你有没有发现,有些人看起来就是比其他人更老。 脸,不仅仅是我们的门面,还是一个人的「健康快照」,更是一张映射身体状态的「体检报告」。 最近的一项研究发现这其中还藏着更深的秘密,这项研究登上《柳叶刀数字健康》:Mass General Brigham团队用AI训练出一个模型FaceAge,从人脸照片里预测癌症患者的真实「生物年龄」以提供建议辅助治疗。
5/21/2025 1:51:12 PM

红杉中国xbench全球首发,AI智能体真实战力揭榜!

随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重要需求。 有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity ,Scaling with Profession-Aligned Real-world Evaluations》。
5/27/2025 8:50:00 AM

字节推出统一多模态模型 BAGEL,GPT-4o 级的图像生成能力直接开源了!

图片字节推出的 BAGEL 是一个开源的统一多模态模型,他们直接开源了GPT-4o级别的图像生成能力。 (轻松拿捏“万物皆可吉卜力”玩法~)。 可以在任何地方对其进行微调、提炼和部署,它以开放的形式提供与 GPT-4o 和 Gemini 2.0 等专有系统相当的功能,通过能够实现精确、准确和逼真的输出的原生多模态架构解锁有用且有价值的图像生成。
5/27/2025 3:59:41 PM
AIGC Studio

Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了

Claude团队来搞开源了——推出“电路追踪”(circuit tracing)工具,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。 该工具的核心在于生成归因图(attribution graphs),其作用类似于大脑的神经网络示意图,通过可视化模型内部超节点及其连接关系,呈现LLM处理信息的路径。 研究人员通过干预节点激活值,观察模型行为变化,从而验证各节点的功能分工,解码LLM的“决策逻辑”。
6/3/2025 8:35:00 AM

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

近年来,大语言模型(LLMs)的能力突飞猛进,但随之而来的隐私风险也逐渐浮出水面。 训练中暴露的敏感信息往往被模型“记住”,引发广泛关注。 在此背景下,机器遗忘(Machine Unlearning)技术应运而生,目标是在不影响整体能力的前提下,有选择性地抹除特定知识。
6/3/2025 8:44:00 AM

程序员从此不再写代码!红杉专访Codex团队,o3白菜价真相曝光

未来的AI Coding会是什么样子? Copilot、Cursor、Windsurf还是Claude Code? 都不是!
6/13/2025 2:22:04 PM

10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

前段时间,我们报道了 5 款大模型参加了今年山东高考的事儿,为了弄清楚各大模型在 9 个科目中的具体表现,我们对着测评明细表挨个儿分析,搞得狼狈又崩溃。 要是哪个 AI 能一键分析表格,我当场就能给它磕一个。 现在,终于有 AI 来整顿 Excel 表格了!
7/4/2025 4:47:35 PM

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。 该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。 此外,MLA-Trust 提供了高度模块化且可扩展的评估工具箱,旨在为多样化交互环境中 MLAs 的持续性可信度评估提供技术支撑。
7/4/2025 4:50:07 PM

斯坦福开源复杂推理AI Agent,融合超十种工具

传统的AI助手通常依赖于单一模型或有限的工具集,难以应对需要多步推理、跨领域知识融合及高精度数据分析的任务。 例如,解决视觉谜题,需要精细图像理解和基于文本的混合推理。 为了解决这一难题,斯坦福开源了OctoTools,这是一个融合了11种不同工具专用于复杂推理的AI Agent。
7/21/2025 11:51:12 AM

AI「解码」古罗马,重现千年铭文真相!DeepMind新模型再登Nature

Aeneas原本是古希腊神话中流浪英雄。 出现在7月24日Nature主刊的Aeneas则是一个多模态生成式神经网络,它能帮助历史学家更好地解读、归属和修复残缺文本。 想象考古学家在欧洲发现了一块刻有古代文字的铭文,文本残缺不全、部分文字被风化或被故意破坏。
8/11/2025 8:54:00 AM

Anthropic收购Humanloop核心团队!加码企业AI工具争夺战

人工智能安全公司Anthropic近日完成了对AI工具平台Humanloop核心团队的收购,这一举措旨在强化其企业市场战略。 虽然交易具体条款未被披露,但此次收购明显遵循了科技行业在AI人才争夺战中日益常见的"人才收购"模式。 Humanloop的三位联合创始人——CEO Raza Habib、CTO Peter Hayes和CPO Jordan Burgess——已全部加入Anthropic,同时还有约十几名工程师和研究人员。
8/14/2025 10:36:58 AM
AI在线

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%

Meta超级实验室「Meta Superintelligence Labs,MSL」发了新论文! 如果你不断让大语言模型回答「把它改进一下」,会发生什么? 上周,MSL的三位成员上传了一篇ArXiv论文,探索了如何利用强化学习(RL)高效地微调大语言模型。
9/9/2025 3:21:58 PM
  • 1