24 帧·720p·无限交互！谷歌 Genie 3 开启“造梦引擎 2.0”

作者： 2025-08-07 04:25

昨天，Google Deepmind推出新一代AI系统Genie 3，能够根据简单文本生成实时互动的3D虚拟世界。这一模型不仅能构建世界，还能让用户以每秒24帧、720p分辨率的画质在其中自由探索。与传统视频生成不同，Genie 3采用自回归方式逐帧生成画面，每一帧都会参考多达一分钟内的环境细节。

昨天，Google Deepmind推出新一代AI系统Genie 3，能够根据简单文本生成实时互动的3D虚拟世界。这一模型不仅能构建世界，还能让用户以每秒24帧、720p分辨率的画质在其中自由探索。

与传统视频生成不同，Genie 3采用自回归方式逐帧生成画面，每一帧都会参考多达一分钟内的环境细节。

这种方法显著提升了视觉连续性，生成的世界在交互过程中能够在数分钟内保持物理和视觉一致性。

Deepmind表示，这是首个同时实现实时交互与物理连续性的AI世界模型，为发展通用人工智能（AGI）打下了基础。

Genie 3是继Genie 1、Genie 2，以及视频生成器Veo系列之后的又一重要进展。

Deepmind希望将其发展为“基础世界模型”（Foundation World Model），为更高级的智能体系统提供训练平台。

用户仅需输入文字提示，就能在Genie 3中生成如“火山喷发”“飞行岛屿”或“史前遗迹”等复杂场景。

这些提示不仅能改变场景天气、召唤新物体，还能制造各种“反事实情境”，测试AI智能体在突发情况下的反应。

24 帧·720p·无限交互！谷歌 Genie 3 开启“造梦引擎 2.0”

在一个演示中，镜头从多个角度移动，画面左侧的树木在0:00、0:20和0:40秒的时间节点始终如一，清晰展现出环境的稳定性。

Genie 3的独特之处在于，它无需任何预设3D模型或数据，只需文字描述即可构建出稳定世界。

这与NeRF或Gaussian Splatting等依赖已有数据的技术不同，意味着它可以构建更开放、动态的训练环境。

Deepmind的SIM智能体（SIMA）已经在这些虚拟世界中进行测试，系统对智能体的目标一无所知，仅对其动作做出反应。

这种设置让研究人员能够更真实地模拟AI执行复杂任务的过程，并探索其潜在弱点。

Deepmind称Genie 3目前处于有限研究预览阶段，仅向部分研究人员和创作者开放。

这一做法旨在提前识别风险，为后续发展提供参考。

尽管Genie 3还有一些技术限制，例如交互时长有限、多智能体互动尚不成熟、现实地理位置无法定位等，但它已展示出巨大的潜力。

未来，这一模型可用于教育、模拟训练、专家决策支持等领域，尤其适合复杂情境下的预演和演练。

Deepmind CEO Demis Hassabis曾表示，世界模型是实现AGI的关键，因为它们能让AI在无限多样的模拟环境中自主学习。

这一理念也得到AI研究者Richard Sutton和David Silver的支持，他们认为AI的未来应从静态数据转向基于自身经验的学习过程。

而Genie 3，正是这一理念的具象体现。

24 帧·720p·无限交互！谷歌 Genie 3 开启“造梦引擎 2.0”

NVIDIA AI总监Jim Fan认为，Genie 3代表着“游戏引擎2.0”的雏形。

他预测，未来的游戏开发将不再依赖复杂的3D素材与场景图，而由数据驱动的AI模型直接生成可交互空间。

开发者只需通过提示语进行操作，无需理解图形学、着色器或场景管理等技术细节。

“这将是游戏开发的终局（The End Game），”Jim Fan写道，“全部由提示工程驱动，一切由数据决定，复杂性交由AI处理。”

正如语言模型改变了写作方式，Genie 3有望改变游戏的开发方式，乃至整个虚拟世界的创造范式。

Genie 3不仅是一个AI模型，它是Deepmind对未来世界的实验室。

通过它，我们看见了一种可能：人类以语言建造世界，AI在世界中学习行为。

相关资讯