AI在线 AI在线

港大携手快手可灵突破长视频一致性瓶颈,"记忆检索"技术震撼发布

AIbase报道 香港大学与快手可灵团队近日联合发表重磅论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出革命性的"Context-as-Memory"方法,成功解决长视频生成中场景一致性控制的核心难题。 创新理念:将历史上下文作为"记忆"载体该研究的核心创新在于将历史生成的上下文视为"记忆",通过context learning技术学习上下文条件,实现长视频前后场景的高度一致性控制。 研究团队发现,视频生成模型能够隐式学习视频数据中的3D先验,无需显式3D建模辅助,这一理念与谷歌Genie3不谋而合。

AIbase报道 香港大学与快手可灵团队近日联合发表重磅论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出革命性的"Context-as-Memory"方法,成功解决长视频生成中场景一致性控制的核心难题。

创新理念:将历史上下文作为"记忆"载体

该研究的核心创新在于将历史生成的上下文视为"记忆",通过context learning技术学习上下文条件,实现长视频前后场景的高度一致性控制。研究团队发现,视频生成模型能够隐式学习视频数据中的3D先验,无需显式3D建模辅助,这一理念与谷歌Genie3不谋而合。

技术突破:FOV记忆检索机制大幅提升效率

为解决历史帧序列理论上可无限延长带来的计算负担,研究团队提出基于相机轨迹视场(FOV)的记忆检索机制。该机制能从全部历史帧中智能筛选出与当前生成视频高度相关的帧作为记忆条件,显著提升计算效率并降低训练成本。

通过动态检索策略,系统根据相机轨迹FOV重叠关系判断预测帧与历史帧的关联度,大幅减少需要学习的上下文数量,实现模型训练和推理效率的质的飞跃。

数据构建与应用场景

研究团队基于Unreal Engine5收集了多样化场景、带有精确相机轨迹标注的长视频数据集,为技术验证提供坚实基础。用户仅需提供一张初始图像,即可沿设定相机轨迹自由探索生成的虚拟世界。

性能表现超越现有方法

实验结果显示,Context-as-Memory在几十秒时间尺度下保持出色的静态场景记忆力,并在不同场景中展现良好泛化性。与现有SOTA方法对比,该技术在长视频生成场景记忆力方面实现显著性能提升,且能在未见过的开放域场景中有效保持记忆连续性。

此次突破标志着AI视频生成技术向着更长时序、更高一致性的方向迈出重要一步,为虚拟世界构建、影视制作等应用领域开辟新的可能性。

相关资讯

快手可灵 AI 宣布上线“视频音效”功能,向用户限时免费开放

可灵 AI 平台原有的“音效生成”功能中也新增了“视频生音效”模块,支持用户上传视频或调用历史作品,支持一键匹配精准同步的音效。
6/27/2025 3:48:59 PM
问舟

海淀105款大模型背后:看这些AI玩家如何抢占内容生产制高点

二喵 发自 凹非寺. 量子位 | 公众号 QbitAI当你还在为写一篇文章发愁时,AI已经帮别人月入一个亿了。 在北京海淀最新的一场文化沙龙上,最热的讨论不是电影、综艺,而是AI如何重塑内容生产。
9/19/2025 3:53:30 PM
思邈

小白也能做出电影级大片?可灵2.5生成的动作戏酷到封神!

可灵 2.5,来了。 更多测评:不仅已经对可灵的超级创作者们正式进行灰度内测,还在这个周末,登上了釜山国际电影节。 我其实已经很久很久没做过小片子了,在前几天拿到可灵 2.5 的体验资格以后,试了一下,居然,又激起了我的一些创作欲望。
9/26/2025 8:22:46 AM
数字生命卡兹克
  • 1