AI在线 AI在线

ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片

作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果? 例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材很满意,但拍摄时手抖影响了成片质量。 作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意?

作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果?例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材很满意,但拍摄时手抖影响了成片质量。作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意?

为了解决以上问题,可灵研究团队提出了一种可将输入视频沿新相机轨迹重新运镜的视频生成模型 ReCamMaster。用户可以上传任意视频并指定新相机拍摄轨迹,实现已有视频的重运镜。该工作还发布了一个高质量多相机同步拍摄的视频数据集 MultiCamVideo-Dataset,数据集和训练、测试代码均已开源。

ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片

此外,ReCamMaster 在 4D 重建、视频去抖动、自动驾驶、具身智能等领域有较强的应用价值。

图片

  • 论文标题:ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
  • 项目主页:https://jianhongbai.github.io/ReCamMaster
  • 代码:https://github.com/KwaiVGI/ReCamMaster
  • 论文:https://arxiv.org/abs/2503.11647

1.ReCamMaster 能力展示

a) 视频重运镜

图片

b) 4D 场景重建

图片

c) 视频去抖动

图片

d) 在自动驾驶、具身智能等场景作为数据生成器

图片

图片

可以观察到,ReCamMaster 生成的视频可以保持原视频中的场景和动态,并在不同场景有较好的泛化性。更多示例请访问项目主页:https://jianhongbai.github.io/ReCamMaster/

2.ReCamMaster 创新点

研究者表示,ReCamMaster 的主要创新点为:

  • 提出了一种新的简单且有效的 video conditioning 范式,性能较之前方法有大幅度提升。
  • 发布了一个高质量多相机同步拍摄的视频数据集。该数据集在相机可控的视频生成、4D 重建等领域有较高的实用价值。
  • 首次将单视频的重运镜效果做到准产品级的性能,验证了视频生成模型在此类任务上的巨大潜力。

3. ReCamMaster 算法解读

图片

如上图所示,ReCamMaster 的核心创新点在于提出了一种新的 video conditioning 范式,即将 condition video 与 target video 在 patchify 之后沿时间维度拼接。所提出的 video conditioning 范式较之前工作所常用的通道维度拼接有显著的性能提升。

4.MultiCamVideo 数据集

MultiCamVideo 数据集是使用 Unreal Engine 5 渲染的多摄像机同步视频数据集。它包含 13,600 个不同的动态场景,每个场景由 10 个摄像机沿不同的相机轨迹拍摄,总计 136,000 个视频,112,000 个不同的相机轨迹。MultiCamVideo 以 66 个不同的人物为 “主要拍摄对象”,93 种不同的人物动作,和 37 个高质量 3D 环境作为背景。数据集示例如下:

ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片

5.ReCamMaster 实验结果

视频中研究者将 ReCamMaster 与最先进的方法进行了比较,ReCamMaster 较 baseline 有较大幅度的性能提升。

6. 总结

在本文中,研究者提出了 ReCamMaster,一种可将输入视频沿新相机轨迹重新运镜的视频生成模型。ReCamMaster 的核心创新点在于提出了一种简单且有效的 video conditioning 范式,其性能显著优于 baseline 方法。此外、研究者还发布了多相机同步视频数据集 MultiCamVideo-Dataset 用于相机可控的视频生成、4D 重建等领域的研究。

更多细节请参阅原论文。

相关资讯

轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

轨迹可控的视频生成来了,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。 近年来,视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。 在此基础上,(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。
3/27/2025 9:24:16 AM
量子位

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

在A100上用310M模型,实现每秒超30帧自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD)。
6/12/2025 11:57:56 AM

CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分

视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。
6/13/2025 9:10:00 AM
  • 1