长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

作者：AI在线 2025-06-09 09:00

在最近的 Fiction.Live 基准测试中，Gemini2.5Pro 在理解和再现复杂故事和背景方面表现出色，领先于竞争对手 OpenAI 的 o3模型。这项测试远超传统的“大海捞针”式任务，专注于模型在海量上下文中处理深层语义和背景依赖信息的能力。据测试数据显示，在上下文窗口长度达到192，000个词条（约14.4万个单词）时，o3模型性能急剧下滑，而 Gemini2.5Pro 的6月预览版(preview-06-05)在同一条件下依然保持了超过90% 的准确率。

在最近的 Fiction.Live 基准测试中，Gemini2.5Pro 在理解和再现复杂故事和背景方面表现出色，领先于竞争对手 OpenAI 的 o3模型。这项测试远超传统的“大海捞针”式任务，专注于模型在海量上下文中处理深层语义和背景依赖信息的能力。

谷歌大模型Gemini

据测试数据显示，在上下文窗口长度达到192，000个词条（约14.4万个单词）时，o3模型性能急剧下滑，而 Gemini2.5Pro 的6月预览版(preview-06-05)在同一条件下依然保持了超过90% 的准确率。

值得注意的是，OpenAI 的 o3模型在8K 代币以下保持完美准确率，但当上下文扩展至16K~60K 后出现波动，最终在192K时“崩溃”;相比之下，Gemini2.5Pro 尽管在8K时略有下滑，却能稳住表现直至192K。

尽管 Gemini2.5Pro 宣称可支持高达100万个标记的上下文窗口，目前的测试仍远未触及其理论极限。与此同时，o3的最大窗口为200K，而 Meta 推出的 Llama4Maverick 则宣称能处理多达一千万个词条，但在实际任务中被指出忽略了大量重要信息，表现未达预期。

深度理解能力不能靠“堆参数”堆出来。

来自 DeepMind 的研究人员 Nikolay Savinov 指出，“信息越多并不等于更好”。他解释，大上下文带来的挑战在于注意力机制的分配:关注某些信息时，势必会忽略其他部分，反而降低整体表现。他建议用户在使用模型处理大型文档时，优先删除无关页面、缩减冗余内容，以提升模型处理质量。

整体来看，Fiction.Live 基准测试为语言模型能力评估提供了更真实、更贴近应用场景的测试方式。Gemini2.5Pro 在此次测试中展现了其在长文本理解上的强劲实力，也提示行业:未来的大模型竞争，不再仅是“谁的窗口大”，而是“谁用得更聪明”。

谷歌推出更新版 Gemini 2.5 Pro，AI 性能大幅提升

谷歌最近在其 AI 模型系列中迎来了重要更新。继今年3月底推出 Gemini2.5Pro 模型后，谷歌紧接着在4月发布了更为轻量的 Gemini2.5Flash 版本。虽然两者目前都处于预览阶段，但 Gemini2.5Flash 版本已经通过 Gemini App 向全球用户开放，用户可以体验其强大的功能。

6/6/2025 9:00:55 AM AI在线

谷歌发布全新AI模型Gemini 2.5 Pro 免费开放使用

谷歌宣布其最新的人工智能旗舰模型 ——Gemini2.5Pro将免费向所有 Gemini 应用用户开放。这一消息意味着，早前仅限于付费.99美元每月的 Gemini Advanced 用户才能体验的高端功能，现在也能够让更多用户共享。 Gemini2.5Pro 被谷歌称为迄今 “最智能的 AI 模型”，在推理能力上有了显著提升。

3/31/2025 9:40:00 AM AI在线

谷歌AI概览每月用户超15亿，智能工具不断升级

谷歌近日在其2025年第一季度财报中透露，其 AI 概览功能的用户人数已经突破每月15亿，这一数据令人瞩目。谷歌首席执行官桑达尔・皮查伊在财报会议上表示，自去年5月大规模推出这一功能以来，AI 概览一直在不断扩展，已经能为更多类型的搜索查询提供信息，甚至开始正式加入广告，旨在与其他 AI 搜索工具如 ChatGPT Search 和 Perplexity 展开竞争。 AI 概览是谷歌众多智能工具之一。

4/25/2025 12:00:48 PM AI在线

长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

相关资讯

谷歌推出更新版 Gemini 2.5 Pro，AI 性能大幅提升

谷歌发布全新AI模型Gemini 2.5 Pro 免费开放使用

谷歌AI概览每月用户超15亿，智能工具不断升级