实时视频生成新突破：Meta StreamDiT 仅需单 GPU，逐帧生成高质量视频

作者：AI在线 2025-07-14 10:12

Meta 和加州大学伯克利分校的研究人员共同开发了 StreamDiT，这是一款革命性的 AI 模型，能够以每秒16帧的速度实时创建512p 分辨率的视频，并且仅需单个高端 GPU。与以往需要完整生成视频片段才能播放的方法不同，StreamDiT 实现了逐帧实时视频流生成。 StreamDiT 模型拥有 40亿个参数，展现了令人印象深刻的多功能性。

Meta 和加州大学伯克利分校的研究人员共同开发了 StreamDiT，这是一款革命性的 AI 模型，能够以每秒16帧的速度实时创建512p 分辨率的视频，并且仅需单个高端 GPU。与以往需要完整生成视频片段才能播放的方法不同，StreamDiT 实现了逐帧实时视频流生成。

StreamDiT 模型拥有 40亿个参数，展现了令人印象深刻的多功能性。它能够即时生成长达一分钟的视频，响应交互式提示，甚至可以实时编辑现有视频。在一个引人注目的演示中，StreamDiT 成功将视频中的一头猪实时替换为一只猫，同时保持背景不变。

定制架构实现卓越速度

该系统的核心在于其专为速度而构建的定制架构。StreamDiT 采用移动缓冲区技术，能够同时处理多个帧，实现在输出前一帧的同时处理下一帧。新帧在生成之初会比较嘈杂，但会逐渐优化直至达到可显示的状态。根据研究论文，该系统大约只需半秒即可生成两帧，经过处理后可以生成八张最终图像。

StreamDiT 将其缓冲区划分为固定参考帧和短块。在去噪过程中，图像相似度会逐渐降低，从而形成最终的视频帧。

多功能训练与加速技术

为了提升模型的通用性，StreamDiT 的训练过程涵盖了多种视频创作方法，使用了 3，000个高质量视频和一个包含260万个视频的大型数据集。训练在 128块 Nvidia H100GPU 上进行，研究人员发现混合使用1到16帧的块大小能获得最佳效果。

为实现实时性能，团队引入了一项关键的加速技术，将所需的计算步骤从128步大幅减少到仅8步，同时最大程度地降低了对图像质量的影响。 StreamDiT 的架构也针对效率进行了优化，信息仅在局部区域之间交换，而非每个图像元素都与其他元素进行交互。

性能超越现有方法

在直接对比测试中，StreamDiT 在处理包含大量运动的视频时，表现优于 ReuseDiffuse 和 FIFO 扩散等现有方法。其他模型倾向于创建静态场景，而 StreamDiT 则能够生成更具动态感和自然感的运动。

人工评估员对 StreamDiT 在动作流畅度、动画完整性、帧间一致性以及整体质量方面的表现进行了评估。在对时长8秒、512p 的视频进行测试时，StreamDiT 在所有类别中均名列前茅。

更大模型的潜力与现有局限

研究团队还尝试了一个更大的300亿参数模型，该模型提供了更高的视频质量，尽管其速度尚不足以实现实时使用。这表明 StreamDiT 的方法可以扩展到更大的系统，预示着未来更高质量实时视频生成的可能性。

尽管取得了显著进展，StreamDiT 仍存在一些限制。例如，它对视频前半部分的“记忆”能力有限，并且各部分之间偶尔会出现可见的过渡。研究人员表示，他们正在积极研究解决方案以克服这些挑战。

值得注意的是，其他公司也在探索实时 AI 视频生成领域。例如，Odyssey 最近推出了一种自回归世界模型，能够根据用户输入逐帧调整视频，从而提供更便捷的交互体验。

StreamDiT 的出现标志着 AI 视频生成技术的一个重要里程碑，预示着实时交互式视频内容创作的广阔前景。

实时视频生成新突破：Meta StreamDiT 仅需单 GPU，逐帧生成高质量视频

定制架构实现卓越速度

多功能训练与加速技术

性能超越现有方法

更大模型的潜力与现有局限

相关资讯

腾讯混元图像 2.0 发布：实时生图毫秒级速度与超写实画质

微软探索音生图 AI 模型，实时视觉化会议演讲者语音讲述的场景

New Breakthrough in Real-Time Video Generation: Meta StreamDiT Can Generate High-Quality Videos Frame by Frame with a Single GPU