AI在线 AI在线

字节跳动发布 StoryMem:给 AI 视频装上“长期记忆”,彻底解决角色走样难题

针对 AI 视频生成领域长期存在的“角色走样”与“环境闪烁”难题,字节跳动与南洋理工大学研究团队近期联合推出名为 StoryMem 的创新系统。 该系统通过引入一种类似人类记忆的机制,成功实现了长视频跨场景创作的高度一致性,解决了 Sora、Kling 等模型在多镜头叙事时容易出现的视觉偏差痛点。 StoryMem 的核心逻辑在于其独特的“混合记忆库”设计。

针对 AI 视频生成领域长期存在的“角色走样”与“环境闪烁”难题,字节跳动与南洋理工大学研究团队近期联合推出名为 StoryMem 的创新系统。该系统通过引入一种类似人类记忆的机制,成功实现了长视频跨场景创作的高度一致性,解决了 Sora、Kling 等模型在多镜头叙事时容易出现的视觉偏差痛点。

QQ20260104-095251.png

StoryMem 的核心逻辑在于其独特的“混合记忆库”设计。研究人员指出,将所有场景强行塞入单个模型会导致计算成本激增,而分段生成又会丢失关联。为此,StoryMem 选择性地存储先前场景的关键帧作为参考。该算法利用双重过滤器,先通过语义分析挑选视觉核心帧,再通过质量检测剔除模糊图像。在生成新场景时,这些关键帧会配合一种名为 RoPE(旋转位置嵌入)的技术输入模型。通过赋予记忆帧“负时间索引”,系统能引导 AI 将其识别为“过去的事件”,从而确保角色形象和背景细节在故事推进中保持稳定。

QQ20260104-095356.png

值得关注的是,StoryMem 的实现方式极为高效。它基于阿里巴巴开源模型 Wan2.2-I2V 的 LoRa 版本运行,在拥有140亿参数的基础模型上仅增加了约7亿参数,显著降低了训练门槛。在包含300条场景说明的 ST-Bench 基准测试中,StoryMem 的跨场景一致性较基础模型提升了28.7%,在美学得分与用户偏好上也全面超越了 HoloCine 等现有前沿技术。

此外,该系统还展现了极高的实用价值,支持用户上传自定义照片作为“记忆起点”来生成连贯故事,并能实现更平滑的场景过渡。尽管在处理多角色并发及大幅度动作衔接上仍有局限,但团队已在 Hugging Face 开放了权重数据,并上线了项目页面供开发者探索。

地址:https://kevin-thu.github.io/StoryMem/

https://huggingface.co/Kevin-thu/StoryMem

相关资讯

字节跳动推出 StoryMem 系统,解决 AI 视频生成中的角色一致性问题

字节跳动推出 StoryMem 系统,解决 AI 视频生成中的角色一致性问题

近日,字节跳动与南洋理工大学的研究团队联合开发了一个新系统 StoryMem,旨在解决 AI 生成视频时角色在不同场景中外观不一致的问题。 该系统通过在生成视频的过程中存储关键帧,并在后续场景生成时进行参考,从而保持角色和环境的一致性。 当前的 AI 视频生成模型,如 Sora、Kling 和 Veo,虽然在短片段生成方面表现出色,但在将多个场景拼接成连贯故事时,仍然存在角色外观变化、环境不一致等问题。
1/4/2026 12:21:23 PM AI在线
输入分镜脚本,几秒生成1分钟连贯叙事视频!字节开源StoryMem,让AI视频角色永不“变脸”

输入分镜脚本,几秒生成1分钟连贯叙事视频!字节开源StoryMem,让AI视频角色永不“变脸”

近日,字节跳动与南洋理工大学联合研发的开源框架StoryMem在AI视频生成领域引发广泛关注。 该框架通过创新的“视觉记忆”机制,将现有单镜头视频扩散模型转化为多镜头长视频故事讲述者,能自动生成时长超过1分钟、包含多个镜头切换、角色和场景高度连贯的叙事视频,标志着开源AI视频技术向电影级叙事迈出关键一步。 StoryMem的核心创新:记忆机制驱动的逐镜生成StoryMem的核心在于引入人类记忆启发的“Memory-to-Video(M2V)”设计。
12/29/2025 10:56:36 AM AI在线
商汤NEO开源:用1/10数据量媲美顶级多模态模型,终结"拼凑式"AI时代

商汤NEO开源:用1/10数据量媲美顶级多模态模型,终结"拼凑式"AI时代

商汤科技与南洋理工大学S-Lab联合发布并开源全新多模态模型架构NEO,通过底层架构创新实现视觉与语言的深层统一,在性能、效率和通用性上取得全面突破。 极致数据效率:1/10数据量达顶尖性能NEO最显著的突破在于其极高的数据效率——仅需3.9亿图像文本示例,相当于业界同等性能模型1/10的数据量,便能开发出顶尖的视觉感知能力。 无需依赖海量数据及额外视觉编码器,NEO凭借简洁架构在多项视觉理解任务中追平Qwen2-VL、InternVL3等顶级模块化旗舰模型。
12/3/2025 10:01:49 AM AI在线