AI在线 AI在线

AI进化新里程碑!大模型首次具备人类空间思维能力!

研究人员近日公布了一项惊人的进展:一个新的 AI 大模型成功掌握了人类的空间思考能力。 这一突破源于蚂蚁技术研究院自然语言组与中科院自动化所和香港中文大学的合作,推出了名为 ViLaSR-7B 的模型,专注于空间推理任务。 这个模型通过一种名为 “边看边画” 的训练方法,能够在理解图像的同时进行空间推理,从而在迷宫导航、静态图像理解和视频分析等多个任务上平均提高了18.4% 的准确率。

研究人员近日公布了一项惊人的进展:一个新的 AI 大模型成功掌握了人类的空间思考能力。这一突破源于蚂蚁技术研究院自然语言组与中科院自动化所和香港中文大学的合作,推出了名为 ViLaSR-7B 的模型,专注于空间推理任务。

这个模型通过一种名为 “边看边画” 的训练方法,能够在理解图像的同时进行空间推理,从而在迷宫导航、静态图像理解和视频分析等多个任务上平均提高了18.4% 的准确率。更令人振奋的是,ViLaSR-7B 在著名的 VSI-Bench 测试中,达到了45.4% 的高分,成功超越了当前最先进的方法。

元宇宙 科幻 赛博朋克 绘画 (1)大模型

图源备注:图片由AI生成,图片授权服务商Midjourney

ViLaSR-7B 的成功不仅是技术上的进步,更是向实现真正的视觉智能迈出了一大步。研究团队为模型设计了三阶段训练框架,以系统化地培养其空间推理能力。第一阶段,模型通过冷启动训练建立基础视觉能力;第二阶段,通过反思拒绝采样,模型学习到自我修正的能力;第三阶段,采用强化学习,进一步优化其推理效果。

传统的视觉语言模型主要通过 “视觉转文本” 的方式处理图像信息,但这一方法在许多场景中表现出局限性,如在复杂的迷宫中容易失去方向。相比之下,ViLaSR-7B 的 “边看边画” 方式,让模型能够更灵活地捕捉空间关系,通过交互式绘图来辅助思考。这种创新性的思维模式模拟了人类在解决空间问题时的过程,提升了模型的理解深度和推理效果。

ViLaSR-7B 的推出不仅展示了人工智能在视觉推理领域的潜力,还为未来的智能应用提供了新的方向。

相关资讯

小米首个推理大模型Xiaomi MiMo开源

2025年4月30日,小米公司宣布开源其首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」。 这一模型的发布标志着小米在人工智能领域迈出了重要的一步,特别是在推理能力的提升上取得了显著进展。 「Xiaomi MiMo」的诞生旨在探索如何激发模型的推理潜能,特别是在预训练增长见瓶颈的情况下。
4/30/2025 10:00:55 AM
AI在线

70亿参数干翻320亿?小米扔出“核弹级”AI MiMo 你的“破电脑”也能跑赢奥数题和复杂代码!

小米正式在Hugging Face平台发布其首个专为推理(Reasoning)设计的开源大模型——MiMo-7B。 据AIbase了解,MiMo-7B通过从预训练到后训练的强化学习(RL)优化,展现了在数学、代码和通用推理任务上的卓越性能,超越了多个32亿参数以上的基线模型。 社交平台上的热烈讨论凸显了其对AI社区的深远影响,相关细节已通过Hugging Face(huggingface.co/xiaomi/MiMo-7B)与小米官网(xiaomi.com)公开。
4/30/2025 2:00:40 PM
AI在线

Groundlight 开源框架,搞定复杂的视觉推理

一直专注于让AI看懂世界的 Groundlight 研究团队,近日放大招,宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理,让AI不仅能“看图识物”,更能像福尔摩斯一样,从图像中推理出更深层次的信息。  我们都知道,现在的AI在识别猫猫狗狗方面已经炉火纯青,但要让它们理解图片背后的逻辑关系,进行更复杂的推理,就常常“卡壳”。 Groundlight 的研究人员指出,当前的视觉语言模型 (VLM) 在理解图像本身尚且不足的情况下,更难以完成需要深度解读的任务。
3/17/2025 3:00:00 PM
AI在线
  • 1