AI在线 AI在线

中国科大与字节发布 MoGA 长视频生成模型:分钟级多镜头短片一键生成

中国科学技术大学与字节跳动即将联合发布一款具有里程碑意义的 端到端长视频生成模型。 该模型能够直接生成**分钟级长度、480p 分辨率、24帧/秒(fps)**的高质量视频,并支持多镜头场景切换,标志着国产视频生成技术在全球生成式 AI 竞赛中实现关键突破。 这项成果的核心创新在于其底层算法——MoGA(Modular Global Attention),这是一种全新的注意力机制,专为解决长视频生成中的上下文扩展与算力开销问题而设计。

中国科学技术大学与字节跳动即将联合发布一款具有里程碑意义的 端到端长视频生成模型。该模型能够直接生成**分钟级长度、480p 分辨率、24帧/秒(fps)**的高质量视频,并支持多镜头场景切换,标志着国产视频生成技术在全球生成式 AI 竞赛中实现关键突破。

这项成果的核心创新在于其底层算法——MoGA(Modular Global Attention),这是一种全新的注意力机制,专为解决长视频生成中的上下文扩展与算力开销问题而设计。凭借 MoGA 的结构优化,模型可处理长达 580K token 的上下文信息,大幅降低计算成本,使长时间、多场景的视频生成成为可能。

研究团队表示,传统视频生成模型往往受限于显存和计算量,只能生成几秒钟的动画 GIF 或短片。而 MoGA 的引入,让模型能够“一次性”生成包含多个镜头切换、视觉叙事连贯的 “迷你短片”,极大拓展了生成式视频模型的应用边界。

此外,MoGA 具有高度的 模块化与兼容性,可直接与现有的高效加速库(如 FlashAttention、xFormers、DeepSpeed 等)集成,实现更快的训练与推理效率。这意味着该技术不仅具备科研突破意义,也具备产业落地潜力,可应用于影视创作、广告生成、游戏过场动画以及数字人内容生产等领域。

随着 OpenAI、Pika、Runway 等公司相继推进短视频生成,中国科大与字节跳动此次推出的模型被认为是国内首个能真正实现分钟级长视频生成的系统,其在算法、效率和可扩展性上的领先性,或将推动中国在视频生成领域进入全球前列。

地址:https://jiawn-creator.github.io/mixture-of-groups-attention/

相关资讯

​字节跳动布局AI智能眼镜,挑战下一代可穿戴设备市场

人工智能与可穿戴设备的融合:字节跳动研发AI智能眼镜人工智能与可穿戴设备的融合正掀起新的技术浪潮。 字节跳动(ByteDance)近期积极研发一款自家的AI智能眼镜,旨在将先进AI功能与高质量影像捕捉相结合,为用户带来创新体验。 AI驱动的智能眼镜:豆包模型或成核心据业内消息,字节跳动计划在其智能眼镜中集成类似自研AI模型“豆包”的功能,为设备注入强大的智能交互能力。
4/14/2025 10:01:26 AM
AI在线

字节跳动 AI 助手豆包上线图片理解功能,上传图片即可“读图”

据界面新闻3日消息,字节跳动旗下AI助手豆包现已上线图片理解功能,豆包App及豆包PC新增照片及相机按钮,上传图片后可识别图片内容。
12/4/2024 8:11:40 AM
清源

Omdia:预计中国生成式 AI 软件市场五年增超 4 倍,2029 年达 98 亿美元

市场调研机构Omdia今日发布报告称,经过两年的快速发展,2024 年中国的生成式人工智能(GenAI)软件收入已达到 18 亿美元(IT之家备注:当前约 131.18 亿元人民币)。
2/7/2025 12:43:44 PM
清源
  • 1