突破长视频生成瓶颈：南大、TeleAI推出全新AI生成范式MMPL，让创意一镜到底

向迅之，南京大学 R&L 课题组在读博士生，导师是范琦副教授。研究聚焦图像/视频生成与世界模型等 AIGC 方向。你是否曾被 AI 生成视频的惊艳开场所吸引，却在几秒后失望于⾊彩漂移、画面模糊、节奏断裂？

向迅之，南京大学 R&L 课题组在读博士生，导师是范琦副教授。研究聚焦图像/视频生成与世界模型等 AIGC 方向。

你是否曾被 AI 生成视频的惊艳开场所吸引，却在几秒后失望于⾊彩漂移、画面模糊、节奏断裂？当前 AI 长视频⽣成普遍⾯临 “高开低走 ” 的困境：前几秒惊艳夺⽬，之后却质量骤降、细节崩坏；更别提帧间串行生成导致的低效问题 —— 动辄数小时的等待，实时预览几乎难以企及。

这—行业难题，如今迎来突破性解法！

南京大学联合 TeleAI 推出长视频自回归生成新范式——Macro-from-Micro Planning（ MMPL），重新定义 AI 视频创作流程。

灵感源自电影工业的 “分镜脚本 + 多组并行拍摄” 机制，MMPL 首创 “宏观规划、微观执行 ” 的双层⽣成架构：

先谋全局：在宏观层面统—规划整段视频的叙事脉络与视觉—致性，确保剧情连贯、风格统—;
再精细节：将长视频拆解为多个短片段，并通过并行化⽣成管线⾼效填充每—帧细节，大幅提升速度与稳定性。

成果令人振奋：

实现分钟级⾼质量长视频稳定生成，告别 “虎头蛇尾”；
⽣成效率显著提升，结合蒸馏加速技术，预览帧率最高可达约 32 FPS ，接近实时交互体验；
在色彩—致性、内容连贯性上全⾯超越传统串行生成方案。

MMPL 不仅是—项技术升级，更是向 “AI 导演” 迈进的重要—步 —— 让机器不仅会 “拍镜头” ，更能 “讲好—个故事”。

论文标题：Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
作者：Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li
机构：南京大学；中国电信人工智能研究院；上海交通大学；香港中文大学（深圳）；中国科学院大学
论⽂地址：https://arxiv.org/abs/2508.03334
项⽬主页：https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/

传统困境：逐帧⽣成的两大瓶颈

在长视频生成领域，随着时长从几秒扩展到数十秒甚至一分钟以上，主流自回归模型面临两个根本性挑战：

1. 时域漂移（Temporal Drift）

由于每—帧都依赖前—帧生成，微小误差会随时间不断累积，导致画面逐渐 “跑偏”：人物变形、场景错乱、色彩失真等问题频发，严重影响视觉质量。

2. 串⾏瓶颈（Serial Bottleneck）

视频必须逐帧⽣成，⽆法并⾏处理。⽣成 60 秒视频可能需要数分钟乃⾄数⼩时，难以⽀持实时预览或交互式创作。

突破长视频生成瓶颈：南大、TeleAI推出全新AI生成范式MMPL，让创意一镜到底

这些问题使得当前 AI 视频仍停留在 “ 片段级表达” ，难以胜任需要长时连贯性的叙事任务。

创新突破：导演式双层生成框架 MMPL

为解决上述问题，我们提出 Macro-from-Micro Planning（ MMPL） —— — 种 “先规划、后填充” 的两阶段生成范式，其核心思想是：

先全局规划，再并行执行。

这—理念借鉴了电影工业中 “导演制定分镜脚本 + 多摄制组并行拍摄” 的协作模式，将长视频生成从 “接龙式绘画” 转变为 “系统性制片 ”。

MMPL 的核心优势在于实现了三大突破：

长时⼀致性：通过宏观规划抑制跨片段漂移；
高效并行性：各片段可独立填充细节，支持多 GPU 并行；
灵活调度性：采用流水线机制，进—步提升资源利用率。

最终，系统可在保证高质量的前提下，实现分钟级、节奏可控的稳定⽣成，结合蒸馏加速方案，预览速度可达 ≥32 FPS ，接近实时交互体验。

效果呈现：更稳、更长、更快

在统—测试集上，MMPL 显著优于现有方法（如 MAGI 、SkyReels 、CausVid 、Self Foricng 等），在视觉质量、时间—致性和稳定性方面均取得领先。

更稳：无明显色彩漂移、闪烁或结构崩坏，长时间生成仍保持高保真；
更长：支持 20 秒、30 秒乃至 1 分钟的连贯叙事，片段衔接自然；
更快：得益于并行填充与自适应调度，长视频生成整体吞吐量大幅提升。

突破长视频生成瓶颈：南大、TeleAI推出全新AI生成范式MMPL，让创意一镜到底 技术解析：两阶段协同工作机制

MMPL 的成功源于其精心设计的 “规划 — 填充” 双阶段架构。整个流程分为两个层次：微观规划（ Micro Planning）和宏观规划（ Macro Planning），随后进行并行内容填充（Content Populating）。

第⼀阶段：双层规划，构建稳定骨架

1. Micro Planning：片段内关键帧联合预测

我们将长视频划分为多个固定长度的片段（例如每段 81 帧）。对每个片段，模型不直接生成所有帧，而是基于首帧，联合预测⼀组稀疏的关键未来锚点帧，包括：

早期邻近帧
中部关键帧
末端结束帧

记锚点集合为，其生成过程建模为：

这些锚点在同—去噪过程中联合生成，彼此之间语义协调、运动连贯；且均以首帧为条件单步预测，避免了多步累积误差。它们共同构成了该片段的 “视觉骨架” ，为后续填充提供强约束。

2. Macro Planning：跨片段叙事⼀致性建模

为了确保整个视频的连贯性，我们将各片段的 Micro 计划串联成—个⾃回归链：第 s 段的末端锚点作为第 s + 1 段的起始条件。设第 s 段的锚点集合为，首帧为，则全局规划可表示为：

这种 “分段稀疏连接” 的设计，将误差累积从 T 帧级别降低至 S 段级别（ S ≪ T），从根本上缓解了长程漂移问题。

第二阶段：并行填充，释放计算潜能

1. Content Populating：基于锚点的并行细节生成

在所有片段的锚点就绪后，即可并行填充各⽚段内的中间帧。

以第 i 个片段为例，其内容被划分为两个子区间：

条件概率分解如下：

由于每个片段的填充仅依赖本片段的锚点，与其他片段无关，因此所有片段的内容填充可完全独立：

这意味着：多个片段可以同时在不同 GPU 上并行⽣成，极大提升效率。

2. Adaptive Workload Scheduling：动态调度，实现流水线加速

为进—步提升资源利用率，我们引入自适应工作负载调度机制，实现 “规划” 与 “填充” 的重叠执行：

当片段 s 的锚点生成后，即可：

立即启动下—片段 s + 1 的 Micro 计划；
同时，片段 s 自身可提前开始中间帧填充，无需等待全局规划完成。

该机制的形式化表达为：

其中，下—片段的起始帧可选择为或，由此衍⽣出两种运行模式：

最小内存峰值模式

选用作为，跳过当前片段末尾部分的填充。

优势：降低峰值内存占用与单段延迟；
缺点：引入帧重用，影响吞吐量。

最大吞吐量模式

选用作为，完整生成当前片段所有中间帧。

优势：消除冗余，最大化流水线效率；
缺点：每段计算负载更高。

这两种策略可在内存、延迟与吞吐量之间灵活权衡，适配不同部署场景。

结语：从 “会画” 到 “会拍”，AI 开始有了导演思维

当 AI 不再局限于逐帧生成，而是具备了从整体出发的规划能力 —— 理解情节的推进、协调画面的连贯性、控制运动的节奏，长视频生成便迈出了从 “ 片段拼接” 走向 “统—表达” 的关键—步。我们希望，MMPL 能为视频创作提供—种更稳定、更高效的技术路径。借助其近实时的生成能力，创作者可以在快速反馈中不断调整与完善自己的构想，让创意更自由地流动。

也许真正的 “所见即所得” 尚在远方，但至少，我们正朝着那个方向，稳步前行。

突破长视频生成瓶颈：南大、TeleAI推出全新AI生成范式MMPL，让创意一镜到底

相关资讯

黄学东等多名华人当选，2023美国工程院院士名单出炉

一篇推文看一年！Jim Fan力荐2025必读清单：50篇论文，扫盲「全领域AI实战」

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐