AI在线 AI在线

智谱 AI 开源 CogVideoX-5B 视频生成模型,RTX 3060 显卡可运行

智谱 AI 开源了 CogVideoX-5B 视频生成模型,相比此前开源的 CogVideoX-2B,官方称其视频生成质量更高,视觉效果更好。官方表示大幅度优化了模型的推理性能,推理门槛大幅降低,可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ,在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。CogVideoX 是一个大规模 DiT(diffusion transformer)模型,用于文本生成视频任务,主要采用了以下技术:3D causal VAE:通过压缩视

智谱 AI 开源了 CogVideoX-5B 视频生成模型,相比此前开源的 CogVideoX-2B,官方称其视频生成质量更高,视觉效果更好。

官方表示大幅度优化了模型的推理性能,推理门槛大幅降低,可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ,在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。

CogVideoX 是一个大规模 DiT(diffusion transformer)模型,用于文本生成视频任务,主要采用了以下技术:

3D causal VAE:通过压缩视频数据到 latent space,并在时间维度上进行解码来实现高效的视频重建。

专家 Transformer:将文本 embedding 和视频 embedding 相结合,使用 3D-RoPE 作为位置编码,采用专家自适应层归一化处理两个模态的数据,以及使用 3D 全注意力机制来进行时空联合建模。

CogVideoX-5B 与 CogVideoX-2B 详细参数比较如下:

智谱 AI 开源 CogVideoX-5B 视频生成模型,RTX 3060 显卡可运行

AI在线附相关链接:

代码仓库:https://github.com/THUDM/CogVideo

模型下载:https://huggingface.co/THUDM/CogVideoX-5b

论文链接:https://arxiv.org/pdf/2408.06072

相关资讯

谷歌 DeepMind 推出新技术:无 3D 模型也能生成真实运动视频

近日,谷歌 DeepMind 团队与布朗大学合作,开发了一项名为 “力提示”(force prompting)的新技术。 这项技术能够在没有3D 模型和物理引擎的情况下,生成逼真的运动效果,标志着人工智能视频生成领域的一大突破。 使用这项技术,用户只需简单地指定力的方向和强度,就可以操控 AI 生成的视频内容。
6/4/2025 9:01:04 AM
AI在线

智谱 AI 开源 CogVideoX 视频生成模型:“清影”同源,单张 4090 显卡可推理

感谢智谱 AI 今日宣布,将与“清影”同源的视频生成模型 ——CogVideoX 开源。据介绍,CogVideoX 开源模型包含多个不同尺寸大小的模型,目前将开源 CogVideoX-2B,它在 FP-16 精度下的推理需 18GB 显存,微调则需要 40GB 显存,这意味着单张 4090 显卡即可进行推理,而单张 A6000 显卡即可完成微调。CogVideoX-2B 的提示词上限为 226 个 token,视频长度为 6 秒,帧率为 8 帧 / 秒,视频分辨率为 720*480。官方表示,性能更强参数量更大的模
8/6/2024 11:13:40 AM
沛霖(实习)

iPhone 可跑 2B 小钢炮:谷歌 Gemma 2 小模型来袭,跑分超 GPT-3.5

谷歌 DeepMind 的小模型,又上新了!就在刚刚,谷歌 DeepMind 发布 Gemma 2 2B。它是从 Gemma 2 27B 中蒸馏而来。虽然它的参数只有 2.6B,但在 LMSYS 竞技场上的得分,已经超越了 GPT-3.5 和 Mixtral 8x7B!在 MMLU 和 MBPP 基准测试中,它分别取得了 56.1 和 36.6 的优异成绩;比起前代模型 Gemma 1 2B,它的性能超过了 10%。小模型击败了大几个数量级的大模型,再一次印证了最近业界非常看好的小模型方向。谷歌在今天,一共公布了
8/1/2024 1:53:28 PM
汪淼
  • 1