AI在线 AI在线

实时视频生成新突破:Meta StreamDiT 仅需单 GPU,逐帧生成高质量视频

Meta 和加州大学伯克利分校的研究人员共同开发了 StreamDiT,这是一款革命性的 AI 模型,能够以每秒16帧的速度实时创建512p 分辨率的视频,并且仅需单个高端 GPU。 与以往需要完整生成视频片段才能播放的方法不同,StreamDiT 实现了逐帧实时视频流生成。 StreamDiT 模型拥有 40亿个参数,展现了令人印象深刻的多功能性。

Meta 和加州大学伯克利分校的研究人员共同开发了 StreamDiT,这是一款革命性的 AI 模型,能够以每秒16帧的速度实时创建512p 分辨率的视频,并且仅需单个高端 GPU。 与以往需要完整生成视频片段才能播放的方法不同,StreamDiT 实现了逐帧实时视频流生成。

StreamDiT 模型拥有 40亿个参数,展现了令人印象深刻的多功能性。它能够即时生成长达一分钟的视频,响应交互式提示,甚至可以实时编辑现有视频。在一个引人注目的演示中,StreamDiT 成功将视频中的一头猪实时替换为一只猫,同时保持背景不变。

定制架构实现卓越速度

该系统的核心在于其专为速度而构建的定制架构。StreamDiT 采用移动缓冲区技术,能够同时处理多个帧,实现在输出前一帧的同时处理下一帧。新帧在生成之初会比较嘈杂,但会逐渐优化直至达到可显示的状态。根据研究论文,该系统大约只需半秒即可生成两帧,经过处理后可以生成八张最终图像。

StreamDiT 将其缓冲区划分为固定参考帧和短块。在去噪过程中,图像相似度会逐渐降低,从而形成最终的视频帧。

多功能训练与加速技术

为了提升模型的通用性,StreamDiT 的训练过程涵盖了多种视频创作方法,使用了 3,000个高质量视频和一个包含260万个视频的大型数据集。训练在 128块 Nvidia H100GPU 上进行,研究人员发现混合使用1到16帧的块大小能获得最佳效果。

为实现实时性能,团队引入了一项关键的加速技术,将所需的计算步骤从128步大幅减少到仅8步,同时最大程度地降低了对图像质量的影响。 StreamDiT 的架构也针对效率进行了优化,信息仅在局部区域之间交换,而非每个图像元素都与其他元素进行交互。

性能超越现有方法

在直接对比测试中,StreamDiT 在处理包含大量运动的视频时,表现优于 ReuseDiffuse 和 FIFO 扩散等现有方法。 其他模型倾向于创建静态场景,而 StreamDiT 则能够生成更具动态感和自然感的运动。

人工评估员对 StreamDiT 在动作流畅度、动画完整性、帧间一致性以及整体质量方面的表现进行了评估。在对时长8秒、512p 的视频进行测试时,StreamDiT 在所有类别中均名列前茅。

更大模型的潜力与现有局限

研究团队还尝试了一个更大的300亿参数模型,该模型提供了更高的视频质量,尽管其速度尚不足以实现实时使用。这表明 StreamDiT 的方法可以扩展到更大的系统,预示着未来更高质量实时视频生成的可能性。

尽管取得了显著进展,StreamDiT 仍存在一些限制。例如,它对视频前半部分的“记忆”能力有限,并且各部分之间偶尔会出现可见的过渡。研究人员表示,他们正在积极研究解决方案以克服这些挑战。

值得注意的是,其他公司也在探索实时 AI 视频生成领域。例如,Odyssey 最近推出了一种自回归世界模型,能够根据用户输入逐帧调整视频,从而提供更便捷的交互体验。

StreamDiT 的出现标志着 AI 视频生成技术的一个重要里程碑,预示着实时交互式视频内容创作的广阔前景。

相关资讯

腾讯混元图像 2.0 发布:实时生图毫秒级速度与超写实画质

腾讯正式发布其最新的混元图像2.0模型(Hunyuan Image2.0),标志着 AI 图像生成技术迈入 “毫秒级” 响应时代。 新模型在速度上有了显著提升,相比于前代产品,混元图像2.0的参数量提高了一个数量级,结合了高效的图像编解码器和全新的扩散架构,能够在同类商业产品通常需要5到10秒的推理速度下,实现毫秒级的快速响应。 用户在生成图像时,可以一边输入文本或进行语音指令,一边获得实时图像输出,极大地改变了传统的 “抽卡 - 等待 - 抽卡” 模式,提升了用户的交互体验。
5/16/2025 2:00:55 PM
AI在线

微软探索音生图 AI 模型,实时视觉化会议演讲者语音讲述的场景

科技媒体 MSPoweruser 昨日(10 月 14 日)发布博文,报道称微软公司获得了一项新的专利,描述了基于用户实时输入的语音来生成图片。根据美国商标和专利局最新公示的清单,该专利共计 20 页,微软于 2023 年 4 月 5 日提交申请,于 10 月 10 日获批。根据专利描述,该系统可以在会议或讲座中实时捕捉音频,随后通过语言模型进行总结,并生成相应的 AI 图像。
10/15/2024 11:57:27 AM
故渊

New Breakthrough in Real-Time Video Generation: Meta StreamDiT Can Generate High-Quality Videos Frame by Frame with a Single GPU

Meta and researchers from the University of California, Berkeley have developed StreamDiT, a revolutionary AI model that can create 512p resolution videos in real-time at 16 frames per second, requiring only a single high-end GPU. Unlike previous methods that needed to fully generate a video clip before playback, StreamDiT enables real-time video stream generation frame by frame.The StreamDiT model has 4 billion parameters and demonstrates impressive versatility.
7/14/2025 2:01:51 PM
AI在线
  • 1