超越Gemini3、GPT5.1，阿里千问登顶空间推理全球冠军

作者：量子位的朋友们 2025-11-26 03:27

11月26日，空间推理基准测试SpatialBench更新了最新一期榜单，阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名，超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。据了解，SpatialBench是一项近年来兴起的第三方空间推理基准测试榜单，主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力，被AI社区视为是衡量“具身智能”进展的新兴测试标准之一。 SpatialBench不仅测试模型已知的知识，还测试模型在二维和三维空间中“感知”和操控抽象概念的能力，这对具身智能的落地尤为关键。

11月26日，空间推理基准测试SpatialBench更新了最新一期榜单，阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名，超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。

据了解，SpatialBench是一项近年来兴起的第三方空间推理基准测试榜单，主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力，被AI社区视为是衡量“具身智能”进展的新兴测试标准之一。

SpatialBench不仅测试模型已知的知识，还测试模型在二维和三维空间中“感知”和操控抽象概念的能力，这对具身智能的落地尤为关键。

SpatialBench榜单显示，Qwen3-VL-235B和Qwen2.5-VL-72B分别斩获13.5和12.9分，领先于Gemini 3.0 Pro Preview（9.6）、GPT-5.1（7.5）、Claude Sonnet 4.5等海外顶尖模型。

然而，AI大模型的整体表现距离人类仍有差距，人类基准线约为80分左右，可专业处理电路分析、CAD 工程和分子生物学等复杂空间推理任务，目前大模型还无法完全自动化完成此类工作。

据悉，Qwen2.5-VL于2024年开源，Qwen3-VL是阿里在2025年开源的新一代视觉理解模型。

Qwen3-VL在视觉感知和多模态推理方面实现重大突破，在32项核心能力测评中超过Gemini2.5-Pro和GPT-5，不但可调用抠图、搜索等工具完成“带图推理”，也可以凭借一张设计草图或一段小游戏视频直接“视觉编程”。

同时，Qwen3-VL专门增强了3D检测能力，可以更好地感知空间，基于Qwen3-VL，机器人更好地判断物体方位、视角变化和遮挡关系，实现远处苹果的精准抓取。

目前，Qwen3-VL已开源不同版本，包括2B、4B、8B、32B等密集模型以及30B-A3B、235B-A22B等MoE模型，每个模型都有指令版和推理版两款，是当下最受企业和开发者欢迎的开源视觉理解模型。

同时，Qwen3-VL模型也已上线千问APP，用户可免费体验。

榜单链接： https://spicylemonade.github.io/spatialbench/

原来，这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外，知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。前段时间，一位海外技术分析师在一篇博客中提出了一个猜想：一些顶级的 AI 科技公司可能已经构建出了非常智能的模型，比如 OpenAI 可能构建出了 GPT-5，Claude 构建出了 Opus 3.5。

1/29/2025 6:40:00 PM 机器之心

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

近日，全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜（Open LLM Leaderboard），结果显示，排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。这一成就标志着 Qwen 在开源 AI 领域的主导地位，进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单，测试维度涵盖了多个领域，包括阅读理解、逻辑推理、数学计算及事实问答等。

2/11/2025 11:55:00 AM AI在线

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布，其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术，利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化，进一步提升了模型性能。在 watsonx.ai平台上，用户可以通过两种方式使用 DeepSeek 蒸馏模型。

2/11/2025 2:25:00 PM AI在线

超越Gemini3、GPT5.1，阿里千问登顶空间推理全球冠军

相关资讯

原来，这些顶级大模型都是蒸馏的

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线