AI在线 AI在线

告别“静态”限制:全新3D视觉语言模型3D-R1如何平均提升10%推理能力?

在人工智能领域,视觉语言模型(VLM)近年来取得了显著进展,尤其是在二维视觉理解方面。 随着这一领域的不断发展,研究人员们开始将目光投向3D 场景理解。 然而,由于高质量空间数据的稀缺和静态视角假设的限制,现有的3D VLM 往往难以进行有效的推理和泛化。

 在人工智能领域,视觉语言模型(VLM)近年来取得了显著进展,尤其是在二维视觉理解方面。随着这一领域的不断发展,研究人员们开始将目光投向3D 场景理解。然而,由于高质量空间数据的稀缺和静态视角假设的限制,现有的3D VLM 往往难以进行有效的推理和泛化。为了解决这些挑战,研究团队近日发布了名为3D-R1的新型基础模型。

3D-R1的核心创新在于通过高质量的合成数据集、强化学习以及动态视图选择的引入,显著提升了3D 场景理解的推理能力和泛化能力。研究人员利用现有的3D-VL 数据集及基于 Gemini2.5Pro 的数据引擎,构建了一个名为 Scene-30K 的高质量合成数据集。这一数据集为3D-R1提供了强有力的冷启动初始化数据。

在强化学习的训练过程中,3D-R1引入了多种奖励函数,包括感知奖励、语义相似性奖励和格式奖励,旨在提升模型的推理能力,同时确保检测的准确性和答案的语义精度。此外,3D-R1采用了一种动态视图选择策略,能够自适应选择对3D 场景理解最有参考价值的视角。

通过一系列实验,3D-R1在多项3D 场景基准测试中平均提升了10%,证明了其在增强3D 场景理解推理和泛化能力方面的有效性。研究团队表示,3D-R1的发布标志着3D 视觉语言模型研究的一个重要里程碑,为未来的相关研究和应用奠定了坚实的基础。

地址:https://huggingface.co/papers/2507.23478

相关资讯

vivo 新多模态模型登场,AI 理解GUI界面能力再升级!

近日,vivo AI Lab 发布了其最新的端侧多模态模型 ——BlueLM-2.5-3B。 这款模型不仅小巧高效,更具备了理解图形用户界面(GUI)的能力,标志着人工智能在处理文本和图像方面迈出了重要一步。 BlueLM-2.5-3B 的独特之处在于它可以灵活切换长短思考模式,并引入了思考预算控制机制,帮助 AI 更好地平衡思考的深度与效率。
7/11/2025 11:12:21 AM
AI在线

AIGC检测为何频频“看走眼”?腾讯优图揭秘:问题可能出在数据源头

腾讯优图 投稿量子位 | 公众号 QbitAI在AIGC技术飞速发展的背景下,只需一行简单的prompt就可生成高逼真内容,然而,这一技术进步也带来了严重的安全隐患:虚假新闻、身份欺诈、版权侵犯等问题日益突出。 AI生成图像检测也成为了AIGC时代的基础安全能力。 然而在实际应用中, 存在一个“尴尬”现象:检测器往往在“考场”(公开基准数据集)上分数耀眼,一旦换到“战场”(全新模型或数据分布),性能会大幅下降。
11/30/2025 1:06:00 PM
Jay

昆仑万维发布奖励模型 Skywork-Reward,登顶 RewardBench 排行榜

昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上,这两款模型分别位列排行榜上的第一和第三位。奖励模型(Reward Model)是强化学习(Reinforcement Learning)中的核心概念和关键组成,它用于评估智能体在不同状态下的表现,并为智能体提供奖励信号以指导其学习过程,让智能体能够学习到在特定环境下如何做出最优选择。奖励模型在大语言模型(Large Lan
9/13/2024 3:00:14 PM
沛霖(实习)