AI在线 AI在线

在2025年初,浅浅聊一聊世界模型 World Models

Update 1月10日:感谢评论区补充world model在RL中的定义! 感觉在RL中的定义,world model是针对一个具体子任务的模型,最近上述公司提到的World Model的尺度似乎更大、更加通用,更多从:Language Generation Model (ChatGPT)-Image Generation Model(StableDiffusion)-Video/3D Geneartion Model (二者各有侧重因此平级)-World Generation Model(同时具备时序和空间序建模)这么一个趋势。 当然这个World似乎想要包容一切,于是也并不清晰到底是什么样的表征:是否是video sequence?

Update 1月10日:

感谢评论区补充world model在RL中的定义!感觉在RL中的定义,world model是针对一个具体子任务的模型,最近上述公司提到的World Model的尺度似乎更大、更加通用,更多从:Language Generation Model (ChatGPT)->Image Generation Model(StableDiffusion)->Video/3D Geneartion Model (二者各有侧重因此平级)->World Generation Model(同时具备时序和空间序建模)这么一个趋势。当然这个World似乎想要包容一切,于是也并不清晰到底是什么样的表征:是否是video sequence? 是否是3d representation? 如何表征物理? 输入的关系如何? 这些都是 open research question.

不过隐约认为,一个真正的World Model应该建模下列性质:

  • 空间序列(X,Y,Z): 建模几何
  • 时间序列(t): 建模动态
  • 稠密表征: 纹理,光照,渲染过程,物理含义
  • 语义实例: 环境并非一个整体,而是分解成各个具体物体,从而实现物体级的控制和重组
  • 生成式模型: 建模一个概率分布而非一个样本
  • 可微分: 梯度可以从前往后,也可以从后往前传递,于是能作为模块被plug-in一个更大的复杂模型中

在上述基础上最后实现高逼真可微分渲染,并附带空间、时序的一致性。目前市面上一切模型都是上述最终版本的子集。

由于其复杂性,感觉可以明确的是:训练它需要的数据和运算资源是空前的,人类互联网上拥有的一切数据(text, image, video一切模态)可能都不够训这么一个模型,只能训练它在特定场景下的子模型。

原文回答:

World Model 最近是一个比较火的概念,最近有不少公司接二连三提出这个概念并推出相关Demo。在国内外都引发了一些讨论。国内的公司关注点主要在大语言模型、人形机器人、Embodied AI,尚未有公司直接跟进。在此浅浅点评一下这几家公司的技术,就当图一乐。

首先World Model尚未被明确定义,因此我们可以先看看别的公司以及其Demo怎么说的:

李飞飞 World Labs

www.worldlabs.ai/blog

这是最早举起旗帜的公司。从放出的Demo来看,X上也有人提到非常像Cat3D。走的路线是先生成2D图像,然后通过2D图像优化3D表征。更早期的朋友肯定也会想到DreamFusion系列。

当然具体细节未公布,如果基于这套方案,优势和缺点很显然:

优势在于可以用上基于大规模图像数据训练的图像生成器(比如StableDiffusion),得益于大规模二维图像数据容易获得,可以生成非常广阔(Diverse)、可控(Text-driven)的图像类别,从而实现Diverse的三维结构生成。

缺点 (1)三维一致性。从给出的Demo来看,人物移动的范围有限,这是因为从本质上,该方案恢复的三维结构并未、而且理论并不可能,完全收敛。于是,在被约束的视角之外,必然能明显看到几何结构的缺失和不一致。(2) 由于需要优化,速度很慢。一个场景甚至需要几小时。

未来预测。该方案在短期内能得到明显改善,如通过微调训练StableDiffusion进行更精确可控的二维图像生成,然而,个人对这个路线比较悲观,因为它希望从大量低维度的信息分布去恢复高维结构信息,理论上决定了这是Local Minimum。当然很可能有秘密武器在里面,期待公司的下一轮Update。

Google Gemini-2

deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

Google 紧随其后推出了一个Demo。这套方案与李飞飞的World Labs方案完全不一样。它是Next-frame Prediction。简单来说,这个模型只根据马尔可夫假设,只根据前几帧的信息预测下一帧(的Token),可以理解为ChatGPT的图像版本。因此:

(1)这个模型并不显示建模三维信息。该模型并不具有一个3D表征,如NeRF或GS,相反,它只根据复杂的映射关系(比如一群MLP或者当然Transformers结构)去推测下一帧。我们能看到似乎有一定的几何一致性,完全是大量数据暴力拟合的结果。当然,这非常神奇!

(2)因此,该模型将非常灵活,由于不明显建模几何,意味着它能突破几何限制建模更复杂的东西:如动态,物理,纹理,甚至交互关系如对输入控制信号的condition。当然,一切都有代价,无限的输出空间意味着非常难以训练。因此个人仍然对该路线悲观——视频信号并不如文本/图像信号一般易得,具有维度诅咒。我们无法得到如此大的数据去训练一个有效的模型。这意味着最终效果很可能局限于低分辨率,高延迟,以及简单的世界交互复杂度。

不过考虑到Google的技术水平显然可以继续狠狠期待,最近Deepmind还挖走了OpenAI Sora的负责人来做World Model,肯定不久还有大更新。诺奖得主哈萨比斯加持的Deepmind,是这一波浪潮妥妥的顶级选手。

视频生成模型,如OpenAI Sora等

sora.com/

Video Generation 模型个人一直不认为是世界模型。当然学术界有讨论说Sora是不是World Simulators. OpenAI自然乐得大家把它看成一个World Simulators,但个人浅薄地认为:视频生成模型,正如Gemini-2,缺乏高维结构的显示建模。尽管猛地一看,都在输出连续sequence图像,但一个世界模型应该具备更清晰的高维结构,而图像输出只是它在某一个时刻、某一个位置的投影罢了。举例而言,一个3D NeRF/GS是可以被以任意轨迹、相机模型和分辨率要求去渲染输出一致的视频的。这只是一个几何层面的例子,世界模型的高维结构理应比简单的几何结构复杂,甚至具备物体语义以及物理模型的理解。当然具体如何表征,仍然是open question。

Nvidia Cosmos

www.nvidia.com/en-us/ai/cosmos/

非常应景,Nvidia在昨天CES推出了Cosmos模型。说实话粗一看并不知道这是什么东西,这到底是一个仿真器,还是一个Video生成器,还是一个更复杂的模型?暂时没有时间阅读出的报告,但从一个表格里的比较来看,作者在和Video Generation模型比较,暂且归纳为text-conditioned视频生成模型吧。

Niantics Labs

nianticlabs.com/news/largegeospatialmodel?hl=en

Niantics对比前面几家公司没那么出名。它的前身是Google Map,独立出来之后做三维建图和增强现实,它的产品Pokemon GO更有名气一些。由于公司特性,它具有大量现实世界路标、景点的扫描数据,都来自众包的游戏玩家扫描。最近也推出了Large Geospatial Model。然而并不认为这是世界模型,因为它只输出相机定位参数,或者获得一个三维地图结构,同样缺乏复杂的交互能力。不过因为坐拥大规模三维数据(地图),如果能直接学习三维结构或许比基于二维图像恢复三维更有优势。

总结

尽管每个公司对于World Model定义不一样,我们大概能看出这样一个趋势:

  • Data-driven: 当然了,大量的数据,结合生成式模型的学习,希望用上Scaling Law大力出奇迹。
  • 3D: 强3D,包括世界的表征具有三维一致性,结合NeRF/Gaussian Splattings进行逼真的渲染。
  • 可微分性,Differentiable:一个可微分的模型具有强悍的灵活性,能被任何更大的可微分系统作为模块使用:如,感知-控制-决策-执行的复杂机器人系统,想象一个世界模型与机器人控制器结合能产生什么样的功能。

在2025年必然有更多公司迈入这个领域,而且也确实期待它在大量领域的潜在应用,我们可以拭目以待。也欢迎补充文章缺失的World Model。

相关资讯

追平满血版o1的国产多模态模型终于来了!训练细节全部公开

春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了! 刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。 新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1,而且是 OpenAI 之外首个多模态 o1。
1/21/2025 8:00:00 AM
机器之心

Anthropic CEO惊人预警:27年AI超越人类!Claude今年更新全剧透

失踪人口终于回归了! 在互联网消失一段时间后,Anthropic首席执行官Dario Amodei一上来就接受了WSJ、CNBC两家采访,连曝AI大瓜。 他坚定地认为,「2027年之前,AI完全可以超越人类智能!
1/23/2025 9:00:00 AM
新智元

中国AI太强,Meta工程师吓疯?自曝疯狂熬夜复制DeepSeek,天价高管心虚了

今天,Meta员工在匿名社区TeamBlind上的一个帖子,在业内被传疯了。 DeepSeek,真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型,而且与o1不同, R1还是开源模型「Open Source Model」,比OpenAI还Open!更有人曝料,DeepSeek还只是个「副项目」,主业根本不是搞大模型!
1/24/2025 1:20:00 PM
新智元

颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级

最近,非营利研究机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。 OLMo 2系列包含7B和13B两个型号,相比如Llama 3.1和Qwen 2.5等开源模型达到了同等甚至更优的性能,同时FLOPS计算量更少,在性能和计算效率之间取得了极佳的平衡,为开源LLM开辟了新的可能性。 不同大小开源模型的性能对比,OLMo 2的表现优于同参数规模模型在多个下游任务上,OLMo 2展现出了强大的泛化能力和适应能力。
1/24/2025 3:40:00 PM
新智元

DeepSeek-R1持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪——刚刚,DeepSeek-R1跻身大模型竞技榜前三。 以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。 在复杂提示词/风格控制榜单上,R1位列第一。
1/26/2025 8:00:00 AM
量子位

鄂维南李航领衔造高级论文搜索Agent,召回率和精准性超谷歌学术等,磕盐党狂喜

中科院院士鄂维南、字节AI实验室总监李航领衔,推出高级论文搜索Agent。 名为PaSa,两个Agent分别执行多轮搜索和判断论文是否满足查询要求的任务,模仿人类复杂学术搜索行为。 现在就有Demo可玩。
1/27/2025 9:00:00 AM
量子位

免费功能卷翻付费版ChatGPT,欧洲AI新贵叫板OpenAI

“欧洲OpenAI”Mistral AI有新动作了! Le Chat(法语“猫”)全新升级,官方自称它是“您生活和工作的终极AI助手”。 从今天开始,Le Chat上线移动端,iOS和Android都支持,不久也将对企业私有基础设施开放。
2/8/2025 8:50:00 AM
量子位

马克龙豪掷1090亿开欧洲「星际之门」,Mistral狂飙登顶法国APP榜首!

就在刚刚,Le Chat登顶法国免费APP榜首! 在效率榜中,ChatGPT屈居第二,DeepSeek仅排第三在美国效率榜排名35(ChatGPT第一,DeepSeek第二)欧洲开发者们一片欢腾:恭喜Mistral AI,让欧洲的AI竞赛中终于(在欧洲)有了一席之地。 之前,不管是OpenAI还是DeepSeek,都光芒太盛。
2/10/2025 12:00:25 PM
新智元

Claude 4要来了?Anthropic发布38页经济指数报告,43%人类工作正被AI取代!

Claude 3.5 Opus无了,Anthropic本周可能会提前放出Claude 4。 网友爆料称,除了Claude 4,还有推理模型也将首亮相,评分全面超越o3。 Anthropic已经沉寂太久了,去年曾被传出内部模型研发受阻。
2/11/2025 1:00:00 PM
新智元

Claude团队:用400万条对话分析AI对经济的长期影响

基于400万条Claude真实对话数据,Anthropic重磅发布全新报告! 在今天,哪些职业用AI最多? 他们都用AI干什么?
2/12/2025 9:10:00 AM
量子位

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

一.引言推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。 推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。 主流的大模型强化学习算法,如 DPO、PPO、GRPO 等,通常需要在完整的思维链上进行微调,需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的算力。
2/12/2025 12:04:54 PM
机器之心

Karpathy新实验火了!一个「表情」占53个token,DeepSeek-R1苦思10分解谜失败

一个😀,竟然要占用53个token? ! 最近,AI大佬Karpathy在X上分享了这一有趣现象。
2/13/2025 1:00:00 PM
新智元

文心一言全面免费了,深度搜索功能同时上线,第一手实测在此

一天内,OpenAI、百度两家AI大厂同时打出免费牌! 几天前被爆出文心5.0消息后,今天百度突然宣布:文心一言将于4月1日零时起,全面免费!  所有PC端和APP端用户均可体验文心系列最新模型。
2/14/2025 9:12:00 AM
量子位

1秒锁定7500万债务黑洞,OpenAI o系列模型7大实际应用案例

今早5点,OpenAI分享了o系列模型的7大实际应用场景,包括处理模糊任务、从海量信息中提取关键信息、复杂文档推理与决策、多流程AIAgent、视觉推理、代码审查以及性能评估。 在这些实际案例中,一家金融分析平台通过o系列模型成功找出了影响收购的关键变更条款,帮助公司节省了7500万美元。 此外,还解读了o系列推理模型与效率型GPT系列模型的区别,帮助你在实际应用中该如何高效选择这两种模型。
2/14/2025 10:44:13 AM
AIGC开放社区

微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源

过去几年,大型语言模型(LLMs)已经成为人工智能研究的一个关键领域,从大规模的自然语言数据中学习,使其能够以极高的准确率执行各种与语言相关的任务。 得益于模型扩展性方面的进展,研究人员能够创建具有前所未有复杂度的模型。 当前的研究趋势是致力于构建更大、更复杂的模型,具有数百/数千亿个参数,但大型语言模型的训练需要海量的训练数据,尤其随着模型参数量的上升,对于优质数据数量的要求也将进一步加大,优质数据量的缺乏极大限制了模型能力的进一步增长。
2/18/2025 3:03:58 PM
新智元

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

刚刚,马斯克xAI的Grok 3终于亮相(超300万人次围观)! 一出道即巅峰,竞技场(lmarena.ai)官方给出了这样的评价:Grok 3是首个突破1400分的模型,并且在所有类别中排名第一。 而且,Grok 3还是首个在10万张(后扩展到20万)H100集群上训练出的模型。
2/18/2025 3:09:07 PM
量子位

英伟达CEO老黄预言:未来,每个人都有自己的AI导师!

AI导师时代来临,学习门槛将大幅降低! 在近日接受《财富》杂志采访时,黄仁勋直言:「AI的迅猛发展正在彻底改变知识获取的方式。 」以往学习一门新技能或进入陌生领域,需要投入大量时间和精力,而AI导师的出现让这一切发生了翻天覆地的变化。
2/19/2025 2:02:11 PM
新智元

出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了

DeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R1 核心的强化学习算法。 PPO 与 GRPO 的对比,来自论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》相较于 PPO,GRPO 去掉了价值模型,而是通过分组分数来估计基线,从而可极大减少训练资源。 DeepSeek-R1 技术报告中写到:「具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为强化学习框架来提高模型的推理性能。
2/21/2025 12:24:14 PM
机器之心
  • 1