腾讯胡文博：引领 3D 视频世界模型新趋势丨GAIR 2025

今年大会，将开设三个主题论坛，聚焦大模型、算力变革、世界模型等多个议题，描绘 AI 最前沿的探索群像，折射学界与产业界共建的智能未来。腾讯 ARC 实验室高级研究员胡文博也将莅临 12 月 13 日《世界模型》论坛，带来《Towards 3D-aware Video World Models 》（《迈向三维感知的视频世界模型》）的主题分享。过去一年多，Sora为代表的视频生成模型，成为继大语言模型（LLM）后新的学术热点。

今年大会，将开设三个主题论坛，聚焦大模型、算力变革、世界模型等多个议题，描绘 AI 最前沿的探索群像，折射学界与产业界共建的智能未来。

腾讯 ARC 实验室高级研究员胡文博也将莅临 12 月 13 日《世界模型》论坛，带来《Towards 3D-aware Video World Models 》（《迈向三维感知的视频世界模型》）的主题分享。

过去一年多，Sora为代表的视频生成模型，成为继大语言模型（LLM）后新的学术热点。本质上讲，当下火爆的视频生成模型，是一种世界模型，其核心目的是生成一段逼真、连贯的视频。

要达到这样的目的，模型必须在一定程度上理解这个世界的运作方式（比如水往低处流、物体碰撞后的运动、人的合理动作等）。

胡文博正是世界模型研究领域近两年的绝对新锐。

2022年，胡文博获得香港中文大学计算机科学与工程博士学位。至今，胡文博已经在图形学和视觉国际期刊和会议发表20余篇论文。

深耕视频生成模型，Tri-MipR一鸣惊人

1996年出生的胡文博已经在世界模型领域深耕数年。

2018年，胡文博从大连理工大学毕业，还获得了辽宁省优秀毕业生的殊荣。对计算机充满热忱的胡文博并没有选择直接工作，而是奔赴香港中文大学攻读计算机博士学位。

求学期间，胡文博曾先后在大疆、阿里巴巴达摩院、腾讯等知名企业实习。

2022年后，从香港中文大学博士毕业的胡文博，选择加入字节跳动PICO混合现实团队，担任研究员。也是这一阶段，胡文博发表了《Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields》（以下简称《Tri-MipRF》）。这篇论文受到极大关注，入围ICCV'2023最佳论文决赛，并荣获CVPR'2025 PixFoundation研讨会最佳论文奖.

《Tri-MipRF》指出，尽管神经辐射场 (NeRF) 取得了巨大的进步，但我们仍然面临着质量和效率之间的权衡困境。MipNeRF 可以呈现精细的细节和抗锯齿的渲染效果，但训练需要数天时间； Instant-ngp 可以在几分钟内完成重建，却忽略了采样区域，在渲染时会出现模糊或锯齿。

Tri-MipRF的关键在于将预滤波后的3D特征空间分解为三个正交的mipmap。这样就可以利用预滤波后的2D特征图高效地进行3D区域采样，从而在不牺牲效率的前提下显著提升渲染质量。《Tri-MipRF》通过大量实验表明，其实现了最先进的渲染质量和重建速度。与Instant-ngp相比，Tri-MipRF模型大小减少了25%。

2023年11月，胡文博加入腾讯担任高级研究员，继续在生成式世界模型深耕细作，不断探索 3D 视频世界模型的新边界。

视频世界模型迈向三维空间

流媒体视频生成作为交互式世界模型和神经游戏引擎的一个基本组成部分，旨在生成高质量、低延迟且时间上连贯的长视频流。

胡文博今年9月发表的论文《Rolling Forcing: Autoregressive Long Video Diffusion in Real Time》，分享了他们在这一领域的最新研究成果。

他们设计了 “滚动强制”（Rolling Forcing）这一新型视频生成技术，从而实现以最小的误差累积来流式生成长视频的目的。

“滚动强制” 有三项新颖的设计。

首先，“滚动强制”设计了一种联合去噪方案，可以同时对多个噪声水平逐渐增加的帧进行去噪；其次，“滚动强制”将注意力汇聚机制引入到长时流式视频生成任务中，使得模型能够将初始帧的键值状态作为全局上下文锚点，增强长期全局一致性；最后，“滚动强制”设计了一种高效的训练算法，能够在大幅扩展的去噪窗口上进行少步蒸馏。

大量实验表明，“滚动强制” 能够在单块 GPU 上实时流式生成长达数分钟的视频，同时显著减少误差累积。

胡文博也曾经分享他对视频生成模型的场景演变的理解。

胡文博认为，当下的视频生成模型展现出了强大的内容生成能力，有潜力作为世界模拟器。但是由于其本质是在2D空间上的建模，所以不能保证3D合理性与一致性。

为此，胡文博提出，精确相机可控是视频生成模型进化为世界模拟器的重要一环，并在这个方向做了深入研究，提出ViewCrafter和TrajectoryCrafter的解决方案。

ViewCrafter能够从单张图片或者稀疏的多视角图片进行高质量的新视角合成，从而实现静态场景的生成。

TrajectoryCrafter延续这一思想，并将其拓展到了4D场景生成，允许用户使用想要的相机轨迹来重新“拍摄”输入视频，从而实现探索视频背后的4D世界。

12 月 13 日上午 9:30 - 10:00 的世界模型分论坛上，胡文博将带来《Towards 3D-aware Video World Models 》（《迈向三维感知的视频世界模型》）的主题演讲，分享他在视频世界模型领域的最新研究成果。

在这个乍暖还寒的季节，让我们共同期待胡文博的最新演讲，憧憬迈向三维感知的模型世界。

腾讯胡文博：引领 3D 视频世界模型新趋势丨GAIR 2025

相关资讯

Sora 发布两周后，关于 Sora 的一些冷思考

超 1.2 万人参加 CVPR 2024，谷歌研究院获得最佳论文

视频训练LoRA来了！Ostris 用 20 张照片打造惊艳 Wan 2.1 LoRA