AI在线 AI在线

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

鹭羽 发自 凹非寺. 量子位 | 公众号 QbitAI从5秒到4分钟,Sora2也做不到的分钟级长视频生成,字节做到了! 先来看一个前方潜水员拍摄的“真实”海底世界Vlog:视频链接:,有发现么?

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

从5秒到4分钟,Sora2也做不到的分钟级长视频生成,字节做到了!

先来看一个前方潜水员拍摄的“真实”海底世界Vlog:

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

华生,有发现么?不同于一般的AI生成视频,只有短短几秒钟……这个片子全程1分40秒,都是“水分”、都是AI

这就是字节和UCLA联合提出的新方法——Self-Forcing++,无需更换模型架构或重新收集长视频数据集,就能轻松生成分钟级长视频,也不会后期画质突然变糊或卡住。

通过利用教师知识和自生成视频片段指导自回归生成,最长生成视频可达4分15秒,而且高质量、还开源。

话不多说,再看几个视频效果尝尝鲜。

长达3分钟的无人机视角下的海岸线,be like:

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

时长拉到极致,4分15秒跟随大象的脚步纵览草原美景。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

而相同时长下,此前的长视频生成SOTA SkyReels做出的效果是酱紫的:(重生之我成为一只蚂蚁)

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

Self-Forcing++在短时长上继承了Self-Forcing的高质量画面效果,长时长生成也能达成性能指标All kill,视觉稳定性大幅领先CausVid等方法。

或许,AI电影时代离我们已不再遥远……下面来康康更多详细内容。

从5秒到4分15秒

先一起来思考下这个问题:为啥现在的AI视频质量这么高,但还是很容易被人捉虫AI生成?

其实bug就出自视频长度

无论是Sora2、字节Wan,还是腾讯混元、谷歌Veo,视频内容再真假难辨,长度却都只有5到10秒

即使勉勉强强做出长视频,也是只有前几秒能看,后面画面通通崩坏。

原因无他,传统扩散视频生成模型依赖Transformer结构,即使改用双向教师模型将知识蒸馏给学生模型,由于模型本身无法生成长视频的限制,还是会持续不断积累误差。

于是针对这一问题,字节提出Self-Forcing++方法抑制后期质量下降,不再依赖长视频教师模型训练,而是让模型在自己的错误中成长。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

首先是视频长度上,分别从噪声初始化、蒸馏方式、缓存机制三方面优化训练过程:

  • 反向噪声初始化:让学生模型生成远超5秒(实验用100秒)的干净帧序列,再按扩散噪声调度向序列中重新注入噪声。
  • 扩展分布匹配蒸馏:在帧序列生成后,从中随机抽取5秒连续窗口,计算学生与教师模型在窗口内的分布差异(KL散度),然后通过最小化该差异完成训练。
  • 滚动KV缓存训练:在训练与推理阶段均采用滚动KV缓存,训练时用该缓存生成远超教师监督时长的序列,用于扩展DMD计算。

简单来说,就是让LLM在犯错-修正-再犯错的循环中,逐渐学会长时间的稳定生成。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

另外,由于自回归模型使用滑动窗口或稀疏注意力生成长序列时,容易出现长时记忆丢失的情况,还需要引入组相对策略优化(GRPO)改善视频平滑性。

通过计算每一步的重要性权重,结合当前自回归生成的对数概率总和,衡量生成策略的合理性,再将相邻帧光流的相对大小作为运动连续性代理指标,引导模型优化,最终可有效减少画面突变异常。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

研究人员同时发现,现有长视频评估所使用的VBench基准并不完全准确,一些过亮的坏视频也会被误判为好。

为此他们将Gemini-2.5-Pro作为评委,让模型按照过曝光、误差积累等维度以0-100分评分,可以更为精准地衡量视觉稳定性(Visual Stability)。

这一点在后续的实验结果中也得以验证。

兼顾时长和质量

研究人员主要设计了两类场景评估,分别对比该方法与基准模型(包括自回归模型与双向模型)在短时长视频质量长时长生成上的效果。

其中短时长场景(5s)仍然采用VBench基准,根据946个提示词从16个维度评估生成质量。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

结果显示,Self-Forcing++在语义得分(80.37)和总得分(83.11)上均超过NOVA、SkyReels-V2、CausVid等模型,只略低于Wan2.1的总得分84.67。

说明Self-Forcing++虽并未专门针对短视频进行训练,但其在短时长场景中仍能保持高视觉质量与语义一致性。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

在50秒生成时,视觉稳定性得分为90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度更是Self-Forcing得分的1.6倍,文本对齐得分(26.37)也高于多数基准,证明其在中长时长场景的稳定性。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

而在75秒到100秒生成中,文本对齐得分可达26.04、动态程度为54.12,相比CausVid分别提升6.67%和56.4%,相比Self-Forcing则提升18.36%和104.9%。

视觉稳定性得分(84.22)为Self-Forcing(32.03)的2.6倍,且framewise质量(60.66)与基准模型相当,说明其在极长时长下仍能保持高保真度与一致性。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

长视频生成通常存在的失效模式,如运动停滞、保真度退化,Self-Forcing++均未出现类似情况,视频全程保持连贯运动和稳定亮度及质量。

最终实验验证得出,Self-Forcing++可最长生成4分15秒的视频,比原先的5秒提升近50倍,且在保真度和一致性上优于基线方法

参考链接:[1]https://self-forcing-plus-plus.github.io/[2]https://arxiv.org/abs/2510.02283

相关资讯

消息称字节整合 AI 研发团队,AI Lab 即将全部并入 Seed

Seed 自成立就在不断吸纳来自字节内外的人才。除收拢搜索、AML、AI Lab等内部部门中大模型方向人才外,对外也在积极争抢人才。
4/16/2025 12:27:19 PM
清源

好莱坞怒斥OpenAI:新应用Sora会对艺人构成威胁

近日,OpenAI 推出的全新 AI 视频生成应用 Sora 在短短一周内便突破了 100 万次下载,然而这一成就却引来了好莱坞多家顶级经纪公司的强烈不满。 这些公司认为,Sora 的使用模式对艺人及其知识产权构成了 “严重威胁”,可能引发行业的广泛争议。 Sora 允许用户生成包含知名品牌和角色的 AI 视频,而 OpenAI 最初的 “默认使用、可选择退出” 策略意味着,除非工作室或经纪公司主动要求,否则受版权保护的素材可能被随意使用。
10/12/2025 9:22:42 AM
AI在线

Android 用户福音:OpenAI Sora 登陆 Google Play,已开放北美预注册

继此前在苹果 iOS App Store 上线后,OpenAI 旗下热门 AI 视频生成应用程序 Sora 现已出现在谷歌 Google Play 应用商店,这表明该应用即将正式登陆 Android 平台。 根据科技媒体 Android Police 与知名应用数据库 APKMirror 创始人 Artem Russakovskii 的发现,Google Play 上的 Sora by OpenAI 应用目前已开始接受预注册。 与 iOS 版本的情况类似,Google Play 上的 Sora 目前仅在美国和加拿大这两个北美国家开放预注册。
10/13/2025 10:12:11 AM
AI在线
  • 1