AI在线 AI在线

立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!

在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。 由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。 与传统的平面几何相比,立体几何的复杂性在于它需要理解三维结构及其空间关系。

在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。

与传统的平面几何相比,立体几何的复杂性在于它需要理解三维结构及其空间关系。这不仅要求模型具备高水平的空间推理能力,还要能够整合视觉与文本信息。SolidGeo 的数据集包含3113个高质量的立体几何问题,这些问题来源于 K-12教育和高中数学竞赛,每道题目都配有图像和详细的解答说明,确保了数据的真实性与可靠性。

image.png

在对26个主流多模态模型进行的实验中,结果显示,当前最强的 OpenAI-o1模型在 SolidGeo 测试中的准确率仅为49.5%,与人类的77.5% 相比,仍有明显差距。其他模型的表现也不容乐观,许多开源模型的得分均低于30%。尤其在复杂的立体几何任务中,模型的表现更是大打折扣。例如,在涉及平面折叠与展开等任务时,OpenAI-o1的准确率仅为36.1%。相较之下,某些模型在特定难度的任务上却意外表现出色,这可能表明它们在处理简单问题时的泛化能力不足。

image.png

该研究还深入分析了模型在不同提示策略、题目难度和推理效率上的表现差异,发现大多数模型在任务难度增加时准确率显著下降。而推理效率则常常因为输出过长而降低,造成 “过度思考” 现象,这给 AI 的实际应用带来了挑战。

SolidGeo 的推出,不仅为 AI 模型在立体几何推理方面提供了新的评测标准,更是推动了多模态模型在空间智能领域的进一步探索。随着大模型能力的提升,如何在立体几何等复杂领域实现突破,将成为研究者们未来的重要任务。

相关资讯

前字节视觉大模型 AI 平台负责人潘欣加盟美团 出任多模态AI创新业务负责人

前字节视觉大模型 AI 平台负责人潘欣加盟美团 出任多模态AI创新业务负责人

前字节跳动视觉大模型AI平台负责人潘欣已于本周到岗,出任多模态AI创新业务负责人,直接向美团技术委员会汇报。 至此,这家市值千亿港元的生活服务巨头在 2025 年“外卖+AI”战略中补齐了最核心的一块算法拼图。 潘欣的履历横跨中美顶尖研发体系:在Google Brain期间,他主导TensorFlow动态图模块,奠定全球主流深度学习框架的灵活训练范式;回国后相继任职百度、腾讯、字节跳动,负责PaddlePaddle性能优化、无量框架建设及视觉大模型平台, 2024 年 11 月又以AI合伙人身份加盟闪极科技,推动智能眼镜量产。
12/11/2025 5:46:48 PM AI在线
​长跑型 AI 登场:Jan 团队发布 Jan-v2-VL,深度优化多步任务执行力

​长跑型 AI 登场:Jan 团队发布 Jan-v2-VL,深度优化多步任务执行力

开源 AI 项目 Jan 团队近日正式推出了全新的多模态大模型 Jan-v2-VL-Max。 这款拥有30B 参数的模型并非盲目追求通用性,而是精准锁定在“长周期执行任务”这一核心痛点上,旨在解决 AI 在复杂自动化流程中容易“断片”的问题。 该模型的技术底座源自 Qwen3-VL-30B-A3B-Thinking。
12/24/2025 11:41:09 AM AI在线
Jan团队发布Jan-v2-VL-Max!30B多模态模型专攻长周期Agent任务,长序列执行稳超Gemini 2.5 Pro

Jan团队发布Jan-v2-VL-Max!30B多模态模型专攻长周期Agent任务,长序列执行稳超Gemini 2.5 Pro

在AI智能体(Agent)向复杂、多步任务演进的关键阶段,开源社区迎来一员新锐猛将。 Jan团队今日正式发布 Jan-v2-VL-Max——一款300亿参数的多模态大模型,专为长周期、高稳定性自动化执行场景打造,在关键指标上已超越谷歌Gemini2.5Pro与DeepSeek R1,为开源Agent生态注入强劲动力。 聚焦“误差累积”难题,专治多步执行“失焦”当前多模态Agent在执行长序列操作(如自动化UI操作、跨应用任务流)时,常因中间步骤微小偏差导致后续任务全面偏离,即“误差累积”问题。
12/24/2025 2:41:22 PM AI在线