AI在线 AI在线

腾讯发布全新 AI 框架 PrimitiveAnything:颠覆 3D 形状生成方式!

在计算机视觉和图形学中,3D 形状的抽象是一个基础且关键的研究领域。 通过将复杂的3D 形状分解为简单的几何单位,研究者能够更好地理解人类视觉感知的机制。 然而,现有的3D 生成方法通常无法满足机器人操作或场景理解等任务对语义深度和可解释性的要求。

在计算机视觉和图形学中,3D 形状的抽象是一个基础且关键的研究领域。通过将复杂的3D 形状分解为简单的几何单位,研究者能够更好地理解人类视觉感知的机制。

QQ_1747013398902.png

然而,现有的3D 生成方法通常无法满足机器人操作或场景理解等任务对语义深度和可解释性的要求。传统的形状抽象方法往往面临过度细分或缺乏泛化能力的问题。

 PrimitiveAnything:革命性框架

腾讯 AIPD 与清华大学的研究团队联合推出了 PrimitiveAnything 框架,旨在将形状抽象重新定义为原始组件生成任务。该框架采用解码器式的变换器,能够根据形状特征生成可变长度的原始组件序列,极大地提升了几何准确性和学习效率。

PrimitiveAnything 的核心在于其统一的、无歧义的参数化方案,能够支持多种原始形状类型。这一创新设计使得框架能够有效捕捉复杂形状是如何被分解为更简单的组件,从而更符合人类的直观理解。

QQ_1747013363011.png

自动回归生成:高效重构

PrimitiveAnything 通过自动回归的方式生成3D 形状。每个原始组件的类型、位置、旋转和缩放等属性被编码并输入到变换器中,以预测下一个组件。该框架使用级联解码器来建模属性间的依赖关系,确保生成过程的一致性。

在训练过程中,PrimitiveAnything 结合了交叉熵损失、Chamfer 距离(用于重构准确性)和 Gumbel-Softmax(用于可微采样),直到生成一个结束标记为止。这一流程能够灵活且类人地分解复杂的3D 形状。

人类原始组件数据集:全面评估

为验证框架的有效性,研究团队构建了一个大规模的 HumanPrim 数据集,其中包含12万样本及手动注释的原始组件。通过多项指标如 Chamfer 距离、地球移动者距离、Hausdorff 距离等进行评估,PrimitiveAnything 在重构准确性和与人类抽象模式的一致性上均表现优异。

此外,该框架支持从文本或图像输入生成3D 内容,用户能够轻松编辑生成结果,具备高建模质量,并实现超过95% 的存储节省,特别适合于高效的互动3D 应用。

结论:高效便捷的3D 生成

PrimitiveAnything 框架通过将3D 形状抽象视为序列生成任务,充分利用人类设计的原始组件,成功捕捉到直观的分解模式。该框架在各种物体类别中都能实现高质量的生成,显示出强大的泛化能力。

凭借其高效和轻量化的特性,PrimitiveAnything 非常适合用于游戏等需要性能和操作简便性的用户生成内容应用。

demo:https://huggingface.co/spaces/hyz317/PrimitiveAnything

相关资讯

准确率达 80%,深度学习识别布朗运动中纳米粒子形状

编辑 | 绿萝随着纳米粒子在医疗、制药和工业领域的实际应用。从材料的角度出发,需要对每个纳米粒子的性质和团聚状态进行评价并进行质量控制。评估液体中纳米粒子的一种方法是分析布朗运动的轨迹。虽然纳米粒子跟踪分析技术(Nano-tracking analysis,NTA) 是一种用于测量从微观到纳米尺度的单个粒子的简单方法,但它不能评估纳米粒子的形状一直是一个长期存在的问题。NTA 在使用 Stokes-Einstein 方程量化粒子大小时总是假设球形,但无法验证所测量的粒子是否真的是球形的。东京大学的研究团队提出了一种
11/7/2023 3:45:00 PM
ScienceAI

优于3D模型,成功率达90.6%,基于扩散的生成式AI从2D分子图探索过渡态

TSDiff 预测分布的概念说明。(来源:论文)编辑 | X过渡态(TS)探索对于阐明化学反应机制和动力学建模至关重要。最近,机器学习模型在 TS 几何形状(geometries)预测方面表现出了卓越的性能。然而,它们通常需要反应物和产物的 3D 构象,并以其适当的方向作为输入,这需要大量的努力和计算成本。近日,韩国科学技术院(KAIST)的研究人员提出了一种基于随机扩散方法的生成方法,即 TSDiff,用于仅从 2D 分子图预测 TS 几何形状。TSDiff 在准确性和效率方面均优于现有的具有 3D 几何形状的
1/11/2024 5:27:00 PM
ScienceAI

全球首个联邦学习工业级开源框架FATE更新!五大模块迎来巨幅优化

FATE(Federated AI Technology Enabler)是微众银行AI团队研发的全球首个联邦学习工业级开源框架,旨在提供安全的计算框架来支持联邦 AI 生态。FATE 实现了基于同态加密和多方计算(MPC)的安全计算协议,它支持联邦学习架构和多种机器学习算法的联邦学习实现,包括逻辑回归、基于树的算法、深度学习和迁移学习等等。3月31日,FATE推出 v1.6版本更新。在1.6版本中,优化了性能效率及稳定性,在使用体验方面,根据社区的反馈也有多方面的优化,将带来更流畅的使用体验。此外,新版本对其他F
3/31/2021 6:20:00 PM
新闻助手
  • 1