告别“静态”限制：全新3D视觉语言模型3D-R1如何平均提升10%推理能力？

作者：AI在线 2025-08-05 03:01

在人工智能领域，视觉语言模型（VLM）近年来取得了显著进展，尤其是在二维视觉理解方面。随着这一领域的不断发展，研究人员们开始将目光投向3D 场景理解。然而，由于高质量空间数据的稀缺和静态视角假设的限制，现有的3D VLM 往往难以进行有效的推理和泛化。

在人工智能领域，视觉语言模型（VLM）近年来取得了显著进展，尤其是在二维视觉理解方面。随着这一领域的不断发展，研究人员们开始将目光投向3D 场景理解。然而，由于高质量空间数据的稀缺和静态视角假设的限制，现有的3D VLM 往往难以进行有效的推理和泛化。为了解决这些挑战，研究团队近日发布了名为3D-R1的新型基础模型。

3D-R1的核心创新在于通过高质量的合成数据集、强化学习以及动态视图选择的引入，显著提升了3D 场景理解的推理能力和泛化能力。研究人员利用现有的3D-VL 数据集及基于 Gemini2.5Pro 的数据引擎，构建了一个名为 Scene-30K 的高质量合成数据集。这一数据集为3D-R1提供了强有力的冷启动初始化数据。

在强化学习的训练过程中，3D-R1引入了多种奖励函数，包括感知奖励、语义相似性奖励和格式奖励，旨在提升模型的推理能力，同时确保检测的准确性和答案的语义精度。此外，3D-R1采用了一种动态视图选择策略，能够自适应选择对3D 场景理解最有参考价值的视角。

通过一系列实验，3D-R1在多项3D 场景基准测试中平均提升了10%，证明了其在增强3D 场景理解推理和泛化能力方面的有效性。研究团队表示，3D-R1的发布标志着3D 视觉语言模型研究的一个重要里程碑，为未来的相关研究和应用奠定了坚实的基础。

地址：https://huggingface.co/papers/2507.23478

vivo 新多模态模型登场，AI 理解GUI界面能力再升级！

近日，vivo AI Lab 发布了其最新的端侧多模态模型 ——BlueLM-2.5-3B。这款模型不仅小巧高效，更具备了理解图形用户界面（GUI）的能力，标志着人工智能在处理文本和图像方面迈出了重要一步。 BlueLM-2.5-3B 的独特之处在于它可以灵活切换长短思考模式，并引入了思考预算控制机制，帮助 AI 更好地平衡思考的深度与效率。

7/11/2025 11:12:21 AM

AI在线

昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上，这两款模型分别位列排行榜上的第一和第三位。奖励模型（Reward Model）是强化学习（Reinforcement Learning）中的核心概念和关键组成，它用于评估智能体在不同状态下的表现，并为智能体提供奖励信号以指导其学习过程，让智能体能够学习到在特定环境下如何做出最优选择。奖励模型在大语言模型（Large Lan

9/13/2024 3:00:14 PM

沛霖（实习）

通过奖励随机化发现多智能体游戏中多样性策略行为，清华、UC伯克利等研究者提出全新算法RPG

在这篇论文中，研究者提出了一个在 reward-space 进行探索的新算法 RPG（Reward-Randomized Policy Gradient），并且在存在多个纳什均衡 (Nash Equilibrium, NE) 的挑战性的多智能任务中进行了实验验证，实验结果表明，RPG 的表现显著优于经典的 policy/action-space 探索的算法，并且发现了很多有趣的、人类可以理解的智能体行为策略。除此之外，论文进一步提出了 RPG 算法的扩展：利用 RR 得到的多样性策略池训练一个新的具备自适应能力的策

3/11/2021 2:46:00 PM

机器之心

告别“静态”限制：全新3D视觉语言模型3D-R1如何平均提升10%推理能力？

相关资讯

vivo 新多模态模型登场，AI 理解GUI界面能力再升级！

昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

通过奖励随机化发现多智能体游戏中多样性策略行为，清华、UC伯克利等研究者提出全新算法RPG