AI在线 AI在线

立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!

在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。 由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。 与传统的平面几何相比,立体几何的复杂性在于它需要理解三维结构及其空间关系。

在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。

与传统的平面几何相比,立体几何的复杂性在于它需要理解三维结构及其空间关系。这不仅要求模型具备高水平的空间推理能力,还要能够整合视觉与文本信息。SolidGeo 的数据集包含3113个高质量的立体几何问题,这些问题来源于 K-12教育和高中数学竞赛,每道题目都配有图像和详细的解答说明,确保了数据的真实性与可靠性。

image.png

在对26个主流多模态模型进行的实验中,结果显示,当前最强的 OpenAI-o1模型在 SolidGeo 测试中的准确率仅为49.5%,与人类的77.5% 相比,仍有明显差距。其他模型的表现也不容乐观,许多开源模型的得分均低于30%。尤其在复杂的立体几何任务中,模型的表现更是大打折扣。例如,在涉及平面折叠与展开等任务时,OpenAI-o1的准确率仅为36.1%。相较之下,某些模型在特定难度的任务上却意外表现出色,这可能表明它们在处理简单问题时的泛化能力不足。

image.png

该研究还深入分析了模型在不同提示策略、题目难度和推理效率上的表现差异,发现大多数模型在任务难度增加时准确率显著下降。而推理效率则常常因为输出过长而降低,造成 “过度思考” 现象,这给 AI 的实际应用带来了挑战。

SolidGeo 的推出,不仅为 AI 模型在立体几何推理方面提供了新的评测标准,更是推动了多模态模型在空间智能领域的进一步探索。随着大模型能力的提升,如何在立体几何等复杂领域实现突破,将成为研究者们未来的重要任务。

相关资讯

Adobe AI代理再扩军:新增产品支持与全球上线数据洞察代理

Adobe持续推进其AI代理生态扩展,正式发布“产品支持代理”,旨在简化Adobe Experience Platform中的故障排除流程,并优化客户体验管理。 同时,Adobe宣布其“数据洞察代理”现已在全球范围内上线。 新发布的“产品支持代理”由Adobe Experience Platform Agent Orchestrator提供技术支持,能够在AI Assistant的对话界面中,为用户提供即时的操作指导和支持案例创建流程。
6/6/2025 11:00:55 AM
AI在线

OpenAI 升级 ChatGPT 语音模式,体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上,再次对其高级语音模式进行了重大的更新,使得语音交流变得更加自然和贴近人类的对话方式。 这一先进的功能依托于原生的多模态模型,能够快速响应音频输入,最快在232毫秒内作出反应,平均响应时间为320毫秒,几乎与人类的对话速度不相上下。 在今年年初,OpenAI 已经对这一语音模式进行了小幅更新,改善了打断频率和口音处理。
6/9/2025 11:00:56 AM
AI在线

ChatGPT 新笔记工具发布:隐形记录,智能整理会议精华

OpenAI 旗下热门 AI 工具 ChatGPT 推出了一项备受期待的新功能——笔记工具,专为会议记录、头脑风暴和个人笔记管理设计。 这一功能目前仅在 ChatGPT 的 macOS 桌面应用程序中可用,为用户提供了一种高效、无缝的信息整理方式。 隐形记录,智能整理ChatGPT 的新笔记工具主打“隐形”记录体验,用户只需在 macOS 桌面应用中点击聊天窗口右侧的圆形图标,即可启动录音模式。
6/20/2025 5:01:01 PM
AI在线
  • 1