AI在线 AI在线

突破 3D 环境生成瓶颈,EmbodiedGen 助力智能机器人研究

在当前身体现智能(Embodied AI)的发展过程中,创建真实且精确缩放的3D 环境至关重要。 然而,现有的方法仍主要依赖于人工设计的3D 图形,这不仅成本高昂,而且缺乏真实感,限制了其扩展性和通用性。 为了在物理环境中实现通用智能,必须进行真实的模拟、强化学习以及多样化的3D 资产生成。

在当前身体现智能(Embodied AI)的发展过程中,创建真实且精确缩放的3D 环境至关重要。然而,现有的方法仍主要依赖于人工设计的3D 图形,这不仅成本高昂,而且缺乏真实感,限制了其扩展性和通用性。

为了在物理环境中实现通用智能,必须进行真实的模拟、强化学习以及多样化的3D 资产生成。尽管最近的扩散模型和3D 生成技术显示出一定的潜力,但许多仍缺乏物理准确性、密闭几何结构和正确的比例,使其不适合用于机器人训练环境。

image.png

当前3D 生成技术的局限性

3D 对象生成通常采用三种主要方法:快速生成的前馈生成、高质量的优化方法和从多张图片进行视图重建。尽管近期技术在分离几何与纹理创建方面取得了进展,但许多模型依然优先考虑视觉效果而非真实物理,这使得它们在需要准确缩放和密闭几何结构的模拟中显得不足。尽管全景技术已经使得全视角渲染成为可能,但仍然缺乏互动性。尽管一些工具试图通过生成资产来增强模拟环境,但其质量和多样性依然有限,无法满足复杂身体现智能研究的需求。

EmbodiedGen:开源、模块化且适用于模拟的解决方案

为了解决这些问题,EmbodiedGen 应运而生。这一由多家机构(包括地平线机器人、香港中文大学、上海齐智研究院和清华大学)共同开发的开源框架,旨在为身体现智能任务生成真实且可扩展的3D 资产。该平台能够输出物理准确、密闭的3D 对象,格式为 URDF,并附带适合模拟的元数据。EmbodiedGen 拥有六个模块化组件,包括图像转3D、文本转3D、布局生成和物体重排列,能够实现可控和高效的场景创建。

多模态生成:丰富的3D 内容

EmbodiedGen 作为一个多功能工具包,专为身体现智能任务设计,能够生成真实且互动的3D 环境。它结合了多种生成模块,将图像或文本转化为详细的3D 对象,创建具有可动部件的关节物品,并生成多样化的纹理以提升视觉质量。此外,EmbodiedGen 支持全面的场景构建,按照真实的物理属性和比例排列这些资产。输出结果直接与模拟平台兼容,使得构建生动的虚拟世界变得更加便捷和经济,帮助研究人员高效模拟真实场景,而无需依赖昂贵的手动建模。

模拟集成与真实物理准确性

EmbodiedGen 不仅是一个强大且易于访问的平台,还能够生成多样化的高质量3D 资产,专门用于身体现智能研究。其多个关键模块使用户能够从图像或文本创建资产,生成关节化和纹理化的对象,并构建真实场景。这些资产具有密闭性、照片级真实感和物理准确性,非常适合用于基于模拟的训练和评估。该平台支持与包括 OpenAI Gym、MuJoCo、Isaac Lab 和 SAPIEN 在内的主流模拟环境集成,使研究人员能够以低成本高效地模拟导航、物体操作和避障等任务。

RoboSplatter:高保真3DGS 渲染技术

EmbodiedGen 的一大亮点是 RoboSplatter,该模块将先进的3D 高斯点云渲染技术(3DGS)引入物理模拟中。与传统图形管道不同,RoboSplatter 在提高视觉保真度的同时,减少了计算开销。通过纹理生成和真实到模拟(Real-to-Sim)转换等模块,用户可以编辑3D 资产的外观或重建高真实感的现实场景。总体而言,EmbodiedGen 简化了可扩展、互动式3D 世界的创建,弥合了现实世界机器人和数字模拟之间的差距。

本研究解决了身体现智能领域的一个核心瓶颈:缺乏可扩展、真实且兼容物理的3D 环境用于训练和评估。尽管互联网规模的数据推动了视觉和语言模型的进展,但身体现智能则需要具备准确缩放、几何形状和互动性的模拟准备资产,这些特性在传统的3D 生成管道中往往缺失。

EmbodiedGen 通过提供一个开放源代码、模块化的平台,能够生成高质量、可控的3D 对象和场景,兼容主流机器人模拟器,填补了这一空白。它将文本和图像转化为可扩展的物理上合理的3D 环境,成为推动身体现智能研究、数字双胞胎以及真实到模拟学习的重要工具。

项目:https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html

相关资讯

你能分辨 AI 生成的图片和真实照片吗?微软总裁挑战你的眼力

微软副董事长兼总裁布拉德・史密斯推出了一项趣味测试,挑战人们辨别 AI 生成图像和真实照片的能力。他在名为“真或假”网站上线了该测试,每个测试包含 15 张图片,玩家需要判断图片是 AI 生成的还是真实拍摄的。测试中的图片每次都会随机更换,因此玩家可以反复挑战,提高鉴别能力。虽然最初的几道题相对简单,但随着测试的进行,难度逐渐增加。尽管有些图片一眼就能看出真假,但 AI 生成图像的逼真度已经达到令人惊讶的水平。同时,现实世界中也存在许多奇特的场景,足以迷惑人们。经过多次尝试,笔者发现测试难度逐渐增加,前十题相对简单
8/6/2024 2:20:18 PM
远洋

AI在用 | 微软总裁疯狂安利的AI小游戏,虐我千千万万遍

机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。天啊噜,AI 真的成精了。最近,AI 生图真假难辨这事儿,闹得那叫一个沸沸扬扬。(查看详情,请移步:AI在用 | 三步速成AI美女,又被AI一秒打回原形)除了火爆全网的 AI 谷歌小姐姐,社交平台上又冒出了形形色色的 FLUX 生
8/13/2024 6:11:00 PM
机器之能

全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/2/2025 11:41:00 PM
机器之心
  • 1