AI在线 AI在线

港大携手快手可灵突破长视频一致性瓶颈,"记忆检索"技术震撼发布

AIbase报道 香港大学与快手可灵团队近日联合发表重磅论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出革命性的"Context-as-Memory"方法,成功解决长视频生成中场景一致性控制的核心难题。 创新理念:将历史上下文作为"记忆"载体该研究的核心创新在于将历史生成的上下文视为"记忆",通过context learning技术学习上下文条件,实现长视频前后场景的高度一致性控制。 研究团队发现,视频生成模型能够隐式学习视频数据中的3D先验,无需显式3D建模辅助,这一理念与谷歌Genie3不谋而合。

AIbase报道 香港大学与快手可灵团队近日联合发表重磅论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出革命性的"Context-as-Memory"方法,成功解决长视频生成中场景一致性控制的核心难题。

创新理念:将历史上下文作为"记忆"载体

该研究的核心创新在于将历史生成的上下文视为"记忆",通过context learning技术学习上下文条件,实现长视频前后场景的高度一致性控制。研究团队发现,视频生成模型能够隐式学习视频数据中的3D先验,无需显式3D建模辅助,这一理念与谷歌Genie3不谋而合。

技术突破:FOV记忆检索机制大幅提升效率

为解决历史帧序列理论上可无限延长带来的计算负担,研究团队提出基于相机轨迹视场(FOV)的记忆检索机制。该机制能从全部历史帧中智能筛选出与当前生成视频高度相关的帧作为记忆条件,显著提升计算效率并降低训练成本。

通过动态检索策略,系统根据相机轨迹FOV重叠关系判断预测帧与历史帧的关联度,大幅减少需要学习的上下文数量,实现模型训练和推理效率的质的飞跃。

数据构建与应用场景

研究团队基于Unreal Engine5收集了多样化场景、带有精确相机轨迹标注的长视频数据集,为技术验证提供坚实基础。用户仅需提供一张初始图像,即可沿设定相机轨迹自由探索生成的虚拟世界。

性能表现超越现有方法

实验结果显示,Context-as-Memory在几十秒时间尺度下保持出色的静态场景记忆力,并在不同场景中展现良好泛化性。与现有SOTA方法对比,该技术在长视频生成场景记忆力方面实现显著性能提升,且能在未见过的开放域场景中有效保持记忆连续性。

此次突破标志着AI视频生成技术向着更长时序、更高一致性的方向迈出重要一步,为虚拟世界构建、影视制作等应用领域开辟新的可能性。

相关资讯

快手可灵 AI 宣布上线“视频音效”功能,向用户限时免费开放

可灵 AI 平台原有的“音效生成”功能中也新增了“视频生音效”模块,支持用户上传视频或调用历史作品,支持一键匹配精准同步的音效。
6/27/2025 3:48:59 PM
问舟

一文读懂MCP与AI工具生态的未来,它会是AI智能体的「万能插头」吗?

如今,随着基础模型变得越来越智能,人们越来越需要有一个用于执行、数据获取和工具调用的标准接口。 自 OpenAI 在 2023 年发布函数调用功能以来,AI 智能体与外部工具、数据和 API 的交互能力却日益碎片化:开发者需要为智能体在每个系统中的操作和集成实现特定的业务逻辑。 显然,执行、数据获取和工具调用需要一个标准接口。
3/25/2025 11:24:00 AM
机器之心

OpenAI收购Context.ai团队,助力AI模型评估技术升级

近日,科技巨头 OpenAI 宣布收购初创公司 Context.ai 团队,这一举措旨在提升其 AI 模型的评估与分析能力。 Context.ai 成立于2023年,由前谷歌员工 Henry Scott-Green 和 Alex Gamble 共同创办,专注于为开发者提供 AI 模型性能的深入分析和可视化工具。 此举显示出 OpenAI 对提升 AI 技术的决心,尤其是在日益复杂的 AI 模型面前。
4/16/2025 12:01:36 PM
AI在线
  • 1