视频生成

美国视频生成老炮儿，入局世界模型

鹭羽发自凹非寺. 量子位 | 公众号 QbitAI世界模型赛道，又有老面孔新鲜入局！就在刚刚，Runway发布旗下首个通用世界模型GWM-1。

12/13/2025 10:41:00 PM

鹭羽

5天连更5次，可灵AI年末“狂飙式”升级

允中发自凹非寺. 量子位 | 公众号 QbitAI12月伊始，可灵AI接连放出大招。全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型、可灵数字人2.0功能…….

12/10/2025 2:28:37 PM

思邈

美团杀入视频生成模型赛道，LongCat-Video 136亿参数媲美顶尖模型，效率提升10倍

又是美团！美团最近在AI领域的开源动作，真是令人刮目相看。刚刚，美团LongCat团队发布了LongCat-Video的基础视频生成模型，它拥有136亿的参数量，能在数分钟内生成720p、30帧每秒的高质量视频，并且在文本转视频、图像转视频和长视频续写等多个任务上都表现出色。

10/29/2025 4:10:41 PM

「世界理解」维度看AI视频生成：Veo3和Sora2水平如何？新基准来了

近年来，Text-to-Video（T2V）模型取得显著进展——从静态帧质量到连贯的视频叙事，模型能力大幅提升，尤其是最近Sora2的爆火，让人们开始想象，T2V Model是否已经是一个真正的“世界模型”？然而，传统基准主要考察图像质量与语义一致性，并不能系统衡量模型对事件因果、物理规律与常识的理解，而这些正是“世界模型”的核心能力。为此，中山大学、香港理工大学、清华大学与OPPO Research Institute合作，在港理工Chair Professor张磊教授的指导下提出了一种新的评测框架——VideoVerse。

10/28/2025 8:49:33 AM

SIGGRAPH Asia 2025｜电影级运镜一键克隆！港中文&快手可灵团队发布CamCloneMaster

本文第一作者罗亚文，香港中文大学 MMLab 博士一年级在读，研究方向为视频生成，导师为薛天帆教授。个人主页：，你是否曾梦想复刻《盗梦空间》里颠覆物理的旋转镜头，或是重现《泰坦尼克号》船头经典的追踪运镜？在 AI 视频生成中，这些依赖精确相机运动的创意，实现起来却往往异常困难。

10/23/2025 9:23:18 AM

清华联手英伟达打造扩散模型新蒸馏范式！视频生成提速50倍，四步出片不穿模

让视频生成提速50倍，不穿模还不糊字。新蒸馏范式让Wan2.1 14B仅需4步就生成吃火锅视频：这是清华大学朱军教授团队， NVIDIA Deep Imagination研究组联合提出的一种全新的大规模扩散模型蒸馏范式——分数正则化连续时间一致性模型（Score-Regularized Continuous-Time Consistency Model, rCM）。该方法首次将连续时间一致性蒸馏成功扩展至百亿参数级别的文生图和文生视频模型，解决了现有方法在真实应用场景中的瓶颈。

10/23/2025 9:02:12 AM

SIGGRAPH Asia 2025｜电影级运镜一键克隆！港中文&快手可灵团队发布CamCloneMaster

10/22/2025 2:49:00 PM

机器之心

41倍实时交互：LongLive如何突破长视频生成的效率与质量困局

大家好，我是肆〇柒。最近视频生成挺火，刚好看到一个研究——LongLive实时交互式长视频生成框架。这项由NVIDIA、MIT、香港科技大学（广州）、香港大学和清华大学研究团队联合研发的创新技术，成功解决了困扰行业已久的"提示切换断层"难题，让创作者能够在生成过程中实时调整叙事方向，实现真正的"所想即所见"创作体验。

10/21/2025 1:00:00 AM

肆零柒

训练成本暴降99%，35秒出1分钟高清视频！英伟达MIT等引爆视频AI革命

27帧每秒的实时视频生成、35秒合成1分钟高清视频——这不是遥远的未来，而是刚刚由英伟达联合MIT与港大团队带来的现实。全新一代视频扩散模型SANA-Video横空出世，凭借革命性的线性DiT架构与恒定显存KV缓存机制，不仅速度超越所有同类模型，更以高达720p的分辨率与分钟级时长生成，重新定义了AI视频生成的效率极限。 SANA-Video不仅在速度和性能上表现出色，生成的图像质量也非常高。

10/20/2025 8:58:00 AM

紧急应对Sora 2，谷歌推出Veo 3.1版本：一手实测

刚刚，谷歌Veo 3进行了更新，最新版本Veo 3.1，可以在这里体验，fast模式每次生成耗费20积分，相比sora 2 看起来贵很多，sora 2到目前为止都是无限制生成，完全免费我第一时间就做了一个Veo 3.1和sora 2的初步对比测试，测试下来，Veo 3.1审美以及提示词遵循能力还是不如sora 2，不过好处是，Veo 3.1支持上传人像进行创作，sora 2 目前图生视频不支持人像废话不多说，看玩法：上手测试1.图生视频：nanobanana Veo 3.1先用nanobanana生成一个超高清小姐姐提示词：复制进入：，提示词：展示穿搭。

10/16/2025 9:37:11 AM

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

那边OpenAI的Sora2还没全面开放，这边国内团队已经上线了自己的“特色打法”。清华特奖选手创办的Sand.ai，上线了音画同步视频模型GAGA-1。你可以把它理解为：一个专门练“嘴功”和“表演感”的视频生成模型：怎么样，奥特曼看了这视频都得说一句：好家伙！

10/13/2025 9:02:00 AM

Sora 2深夜来袭，OpenAI直接推出App，视频ChatGPT时刻到了

没想到吧，在别家节前卷大模型时，OpenAI 悄悄发布了 Sora2。而且，这次是直接产品化，推出了 App，甚至还有配套的视频推送算法，声称可以防成瘾。这是要做自己的 TikTok？

10/1/2025 11:01:00 AM

机器之心

生数科技获数亿元融资，视频生成引领AI商业化新潮流

近日，多模态 AI 领域的先锋企业生数科技宣布成功完成数亿元人民币的 A 轮融资。这轮融资由博华资本领投，老股东百度战投、北京市人工智能产业投资基金等多个投资方继续跟进，显示出市场对生数科技的高度认可。公司计划利用这笔资金进一步推动模型研发和技术创新，探索多模态大模型的潜力，进而加速产品拓展和用户服务。

9/19/2025 4:21:29 PM

AI在线

刚刚，李飞飞空间智能新成果震撼问世！3D世界生成进入「无限探索」时代

就在今天，斯坦福大学教授李飞飞的创业公司 World Labs 发布了新成果 —— 限量开放的测试预览版空间智能模型 Marble。「只需一张图片，就能生成持久存在的 3D 世界，比以往更宏大、更震撼！」我们先看下面一段视频 demo：李飞飞对此表示，「这是一个使用我们的 3D 世界生成模型创建的极其庞大的世界，它令我惊叹不已！

9/17/2025 9:18:56 AM

英伟达新GPU，超长上下文/视频生成专用

老黄对token密集型任务下手了。刚刚，在AI Infra Summit上，英伟达宣布推出专为处理百万token级别的代码生成和生成式视频应用的全新GPU——NVIDIA Rubin CPX GPU。老黄表示：Rubin CPX是首款为超大上下文AI量身定制的CUDA GPU，可以让模型“一口气”推理数百万token。

9/10/2025 9:38:56 AM

你能永远陪我聊天吗？复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!

在《流浪地球 2》中图恒宇将 AI 永生数字生命变为可能，旨为将人类意识进行数字化备份并进行意识上传，以实现人类文明的完全数字化。如今随着扩散模型的兴起极大，涌现出大量基于音频驱动的数字人生成工作。具体而言，语音驱动人类视频生成旨在基于参考图像与音频，合成面部表情与身体动作与音频高度同步的自然人像视频，在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。

8/31/2025 1:37:00 PM

机器之心

告别「面瘫」配音，InfiniteTalk开启从口型同步到全身表达新范式

传统 video dubbing 技术长期受限于其固有的 “口型僵局”，即仅能编辑嘴部区域，导致配音所传递的情感与人物的面部、肢体表达严重脱节，削弱了观众的沉浸感。现有新兴的音频驱动视频生成模型，在应对长视频序列时也暴露出身份漂移和片段过渡生硬等问题。为解决这些痛点，Infinitetalk 引入 “稀疏帧 video dubbing”。

8/28/2025 9:11:56 AM

阿里通义万相预告Wan 2.2-S2V模型：解锁AI视频音频同步生成

近日，阿里通义万相团队在社交媒体平台X上发布预告，即将推出其最新的AI模型——Wan2.2-S2V。这款新模型的核心亮点在于，它不仅具备强大的视频生成能力，还能同步生成音频，实现了视频与音频的深度融合。根据团队发布的示例视频，该模型能够生成包含唱歌音频的AI视频，这标志着其在多模态AI生成技术上迈出了重要一步。

8/26/2025 11:31:10 AM

AI在线

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词）

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码算法 AI for Science 苹果 Agent 腾讯 Claude 芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind AI模型亚马逊特斯拉场景深度学习架构 Transformer MCP Copilot 编程视觉

视频生成

美国视频生成老炮儿，入局世界模型

5天连更5次，可灵AI年末“狂飙式”升级

美团杀入视频生成模型赛道，LongCat-Video 136亿参数媲美顶尖模型，效率提升10倍

「世界理解」维度看AI视频生成：Veo3和Sora2水平如何？新基准来了

SIGGRAPH Asia 2025｜电影级运镜一键克隆！港中文&amp;快手可灵团队发布CamCloneMaster

清华联手英伟达打造扩散模型新蒸馏范式！视频生成提速50倍，四步出片不穿模

SIGGRAPH Asia 2025｜电影级运镜一键克隆！港中文&快手可灵团队发布CamCloneMaster

41倍实时交互：LongLive如何突破长视频生成的效率与质量困局

训练成本暴降99%，35秒出1分钟高清视频！英伟达MIT等引爆视频AI革命

紧急应对Sora 2，谷歌推出Veo 3.1版本：一手实测

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

Sora 2深夜来袭，OpenAI直接推出App，视频ChatGPT时刻到了

生数科技获数亿元融资，视频生成引领AI商业化新潮流

刚刚，李飞飞空间智能新成果震撼问世！3D世界生成进入「无限探索」时代

英伟达新GPU，超长上下文/视频生成专用

你能永远陪我聊天吗？复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!

告别「面瘫」配音，InfiniteTalk开启从口型同步到全身表达新范式

阿里通义万相预告Wan 2.2-S2V模型：解锁AI视频音频同步生成

SIGGRAPH Asia 2025｜电影级运镜一键克隆！港中文&快手可灵团队发布CamCloneMaster