AI在线 AI在线

告别“静态”限制:全新3D视觉语言模型3D-R1如何平均提升10%推理能力?

在人工智能领域,视觉语言模型(VLM)近年来取得了显著进展,尤其是在二维视觉理解方面。 随着这一领域的不断发展,研究人员们开始将目光投向3D 场景理解。 然而,由于高质量空间数据的稀缺和静态视角假设的限制,现有的3D VLM 往往难以进行有效的推理和泛化。

 在人工智能领域,视觉语言模型(VLM)近年来取得了显著进展,尤其是在二维视觉理解方面。随着这一领域的不断发展,研究人员们开始将目光投向3D 场景理解。然而,由于高质量空间数据的稀缺和静态视角假设的限制,现有的3D VLM 往往难以进行有效的推理和泛化。为了解决这些挑战,研究团队近日发布了名为3D-R1的新型基础模型。

3D-R1的核心创新在于通过高质量的合成数据集、强化学习以及动态视图选择的引入,显著提升了3D 场景理解的推理能力和泛化能力。研究人员利用现有的3D-VL 数据集及基于 Gemini2.5Pro 的数据引擎,构建了一个名为 Scene-30K 的高质量合成数据集。这一数据集为3D-R1提供了强有力的冷启动初始化数据。

在强化学习的训练过程中,3D-R1引入了多种奖励函数,包括感知奖励、语义相似性奖励和格式奖励,旨在提升模型的推理能力,同时确保检测的准确性和答案的语义精度。此外,3D-R1采用了一种动态视图选择策略,能够自适应选择对3D 场景理解最有参考价值的视角。

通过一系列实验,3D-R1在多项3D 场景基准测试中平均提升了10%,证明了其在增强3D 场景理解推理和泛化能力方面的有效性。研究团队表示,3D-R1的发布标志着3D 视觉语言模型研究的一个重要里程碑,为未来的相关研究和应用奠定了坚实的基础。

地址:https://huggingface.co/papers/2507.23478

相关资讯

vivo 新多模态模型登场,AI 理解GUI界面能力再升级!

近日,vivo AI Lab 发布了其最新的端侧多模态模型 ——BlueLM-2.5-3B。 这款模型不仅小巧高效,更具备了理解图形用户界面(GUI)的能力,标志着人工智能在处理文本和图像方面迈出了重要一步。 BlueLM-2.5-3B 的独特之处在于它可以灵活切换长短思考模式,并引入了思考预算控制机制,帮助 AI 更好地平衡思考的深度与效率。
7/11/2025 11:12:21 AM
AI在线

昆仑万维发布奖励模型 Skywork-Reward,登顶 RewardBench 排行榜

昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上,这两款模型分别位列排行榜上的第一和第三位。奖励模型(Reward Model)是强化学习(Reinforcement Learning)中的核心概念和关键组成,它用于评估智能体在不同状态下的表现,并为智能体提供奖励信号以指导其学习过程,让智能体能够学习到在特定环境下如何做出最优选择。奖励模型在大语言模型(Large Lan
9/13/2024 3:00:14 PM
沛霖(实习)

通过奖励随机化发现多智能体游戏中多样性策略行为,清华、UC伯克利等研究者提出全新算法RPG

在这篇论文中,研究者提出了一个在 reward-space 进行探索的新算法 RPG(Reward-Randomized Policy Gradient),并且在存在多个纳什均衡 (Nash Equilibrium, NE) 的挑战性的多智能任务中进行了实验验证,实验结果表明,RPG 的表现显著优于经典的 policy/action-space 探索的算法,并且发现了很多有趣的、人类可以理解的智能体行为策略。除此之外,论文进一步提出了 RPG 算法的扩展:利用 RR 得到的多样性策略池训练一个新的具备自适应能力的策
3/11/2021 2:46:00 PM
机器之心
  • 1