AI在线 AI在线

字节跳动推出 StoryMem 系统,解决 AI 视频生成中的角色一致性问题

近日,字节跳动与南洋理工大学的研究团队联合开发了一个新系统 StoryMem,旨在解决 AI 生成视频时角色在不同场景中外观不一致的问题。 该系统通过在生成视频的过程中存储关键帧,并在后续场景生成时进行参考,从而保持角色和环境的一致性。 当前的 AI 视频生成模型,如 Sora、Kling 和 Veo,虽然在短片段生成方面表现出色,但在将多个场景拼接成连贯故事时,仍然存在角色外观变化、环境不一致等问题。

近日,字节跳动与南洋理工大学的研究团队联合开发了一个新系统 StoryMem,旨在解决 AI 生成视频时角色在不同场景中外观不一致的问题。该系统通过在生成视频的过程中存储关键帧,并在后续场景生成时进行参考,从而保持角色和环境的一致性。

image.png

当前的 AI 视频生成模型,如 Sora、Kling 和 Veo,虽然在短片段生成方面表现出色,但在将多个场景拼接成连贯故事时,仍然存在角色外观变化、环境不一致等问题。以往的解决方案要么需要大量计算资源,要么会在拼接场景时失去一致性。

StoryMem 系统采用了一种新的方法。在生成视频的过程中,它会将视觉上重要的帧存储在内存中,并在生成新场景时进行参考。该系统的算法会智能选择重要帧,以确保内存的管理效率,同时保留故事开头的重要视觉信息。生成新场景时,这些存储的帧将与当前正在创建的视频一起输入模型,确保生成的内容保持一致。

在实际训练中,StoryMem 采用了低秩适应(LoRA)技术,以适应阿里巴巴开源模型 Wan2.2-I2V。研究团队使用了40万段每段五秒的视频片段进行训练,并通过视觉相似性对这些片段进行分组,从而使模型能够生成风格一致的续集。

根据研究结果,StoryMem 在跨场景一致性上显示了显著的提升,相较于未修改的基础模型提高了28.7% 的表现。此外,用户调查显示,参与者更倾向于选择 StoryMem 生成的结果,认为其在美观性和一致性上均表现更佳。

然而,研究团队也指出了该系统的一些局限性,比如在包含多个角色的复杂场景中,可能会出现角色视觉特征应用不当的情况。为此,建议在每个提示中明确描述角色,以提高生成效果。

项目:https://kevin-thu.github.io/StoryMem/

划重点:  

🌟 StoryMem 系统能够有效解决 AI 视频生成中角色和环境不一致的问题。  

📊 通过存储关键帧,StoryMem 在跨场景一致性方面比现有模型提升了28.7%。  

🛠️ 该系统在处理复杂场景时仍面临挑战,需对角色进行明确描述以提升生成效果。

相关资讯

字节跳动发布 StoryMem:给 AI 视频装上“长期记忆”,彻底解决角色走样难题

字节跳动发布 StoryMem:给 AI 视频装上“长期记忆”,彻底解决角色走样难题

针对 AI 视频生成领域长期存在的“角色走样”与“环境闪烁”难题,字节跳动与南洋理工大学研究团队近期联合推出名为 StoryMem 的创新系统。 该系统通过引入一种类似人类记忆的机制,成功实现了长视频跨场景创作的高度一致性,解决了 Sora、Kling 等模型在多镜头叙事时容易出现的视觉偏差痛点。 StoryMem 的核心逻辑在于其独特的“混合记忆库”设计。
1/4/2026 10:51:44 AM AI在线
输入分镜脚本,几秒生成1分钟连贯叙事视频!字节开源StoryMem,让AI视频角色永不“变脸”

输入分镜脚本,几秒生成1分钟连贯叙事视频!字节开源StoryMem,让AI视频角色永不“变脸”

近日,字节跳动与南洋理工大学联合研发的开源框架StoryMem在AI视频生成领域引发广泛关注。 该框架通过创新的“视觉记忆”机制,将现有单镜头视频扩散模型转化为多镜头长视频故事讲述者,能自动生成时长超过1分钟、包含多个镜头切换、角色和场景高度连贯的叙事视频,标志着开源AI视频技术向电影级叙事迈出关键一步。 StoryMem的核心创新:记忆机制驱动的逐镜生成StoryMem的核心在于引入人类记忆启发的“Memory-to-Video(M2V)”设计。
12/29/2025 10:56:36 AM AI在线
商汤NEO开源:用1/10数据量媲美顶级多模态模型,终结"拼凑式"AI时代

商汤NEO开源:用1/10数据量媲美顶级多模态模型,终结"拼凑式"AI时代

商汤科技与南洋理工大学S-Lab联合发布并开源全新多模态模型架构NEO,通过底层架构创新实现视觉与语言的深层统一,在性能、效率和通用性上取得全面突破。 极致数据效率:1/10数据量达顶尖性能NEO最显著的突破在于其极高的数据效率——仅需3.9亿图像文本示例,相当于业界同等性能模型1/10的数据量,便能开发出顶尖的视觉感知能力。 无需依赖海量数据及额外视觉编码器,NEO凭借简洁架构在多项视觉理解任务中追平Qwen2-VL、InternVL3等顶级模块化旗舰模型。
12/3/2025 10:01:49 AM AI在线