视频生成
美团杀入视频生成模型赛道,LongCat-Video 136亿参数媲美顶尖模型,效率提升10倍
又是美团! 美团最近在AI领域的开源动作,真是令人刮目相看。 刚刚,美团LongCat团队发布了LongCat-Video的基础视频生成模型,它拥有136亿的参数量,能在数分钟内生成720p、30帧每秒的高质量视频,并且在文本转视频、图像转视频和长视频续写等多个任务上都表现出色。
10/29/2025 4:10:41 PM
「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了
近年来,Text-to-Video(T2V)模型取得显著进展——从静态帧质量到连贯的视频叙事,模型能力大幅提升,尤其是最近Sora2的爆火,让人们开始想象,T2V Model是否已经是一个真正的“世界模型”? 然而,传统基准主要考察图像质量与语义一致性,并不能系统衡量模型对事件因果、物理规律与常识的理解,而这些正是“世界模型”的核心能力。 为此,中山大学、香港理工大学、清华大学与OPPO Research Institute合作,在港理工Chair Professor张磊教授的指导下提出了一种新的评测框架——VideoVerse。
10/28/2025 8:49:33 AM
SIGGRAPH Asia 2025|电影级运镜一键克隆!港中文&快手可灵团队发布CamCloneMaster
本文第一作者罗亚文,香港中文大学 MMLab 博士一年级在读,研究方向为视频生成,导师为薛天帆教授。 个人主页:,你是否曾梦想复刻《盗梦空间》里颠覆物理的旋转镜头,或是重现《泰坦尼克号》船头经典的追踪运镜? 在 AI 视频生成中,这些依赖精确相机运动的创意,实现起来却往往异常困难。
10/23/2025 9:23:18 AM
清华联手英伟达打造扩散模型新蒸馏范式!视频生成提速50倍,四步出片不穿模
让视频生成提速50倍,不穿模还不糊字。 新蒸馏范式让Wan2.1 14B仅需4步就生成吃火锅视频:这是清华大学朱军教授团队, NVIDIA Deep Imagination研究组联合提出的一种全新的大规模扩散模型蒸馏范式——分数正则化连续时间一致性模型 (Score-Regularized Continuous-Time Consistency Model, rCM)。 该方法首次将连续时间一致性蒸馏成功扩展至百亿参数级别的文生图和文生视频模型,解决了现有方法在真实应用场景中的瓶颈。
10/23/2025 9:02:12 AM
SIGGRAPH Asia 2025|电影级运镜一键克隆!港中文&快手可灵团队发布CamCloneMaster
本文第一作者罗亚文,香港中文大学 MMLab 博士一年级在读,研究方向为视频生成,导师为薛天帆教授。 个人主页:,你是否曾梦想复刻《盗梦空间》里颠覆物理的旋转镜头,或是重现《泰坦尼克号》船头经典的追踪运镜? 在 AI 视频生成中,这些依赖精确相机运动的创意,实现起来却往往异常困难。
10/22/2025 2:49:00 PM
机器之心
41倍实时交互:LongLive如何突破长视频生成的效率与质量困局
大家好,我是肆〇柒。 最近视频生成挺火,刚好看到一个研究——LongLive实时交互式长视频生成框架。 这项由NVIDIA、MIT、香港科技大学(广州)、香港大学和清华大学研究团队联合研发的创新技术,成功解决了困扰行业已久的"提示切换断层"难题,让创作者能够在生成过程中实时调整叙事方向,实现真正的"所想即所见"创作体验。
10/21/2025 1:00:00 AM
肆零柒
训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
27帧每秒的实时视频生成、35秒合成1分钟高清视频——这不是遥远的未来,而是刚刚由英伟达联合MIT与港大团队带来的现实。 全新一代视频扩散模型SANA-Video横空出世,凭借革命性的线性DiT架构与恒定显存KV缓存机制,不仅速度超越所有同类模型,更以高达720p的分辨率与分钟级时长生成,重新定义了AI视频生成的效率极限。 SANA-Video不仅在速度和性能上表现出色,生成的图像质量也非常高。
10/20/2025 8:58:00 AM
紧急应对Sora 2,谷歌推出Veo 3.1版本:一手实测
刚刚,谷歌Veo 3进行了更新,最新版本Veo 3.1,可以在这里体验,fast模式每次生成耗费20积分,相比sora 2 看起来贵很多,sora 2到目前为止都是无限制生成,完全免费我第一时间就做了一个Veo 3.1和sora 2的初步对比测试,测试下来,Veo 3.1审美以及提示词遵循能力还是不如sora 2,不过好处是,Veo 3.1支持上传人像进行创作,sora 2 目前图生视频不支持人像废话不多说,看玩法:上手测试1.图生视频:nanobanana Veo 3.1先用nanobanana生成一个超高清小姐姐提示词:复制进入:,提示词:展示穿搭。
10/16/2025 9:37:11 AM
实测“清华特奖版Sora”:一图一prompt直接生成视频,堪称嘴强王者
那边OpenAI的Sora2还没全面开放,这边国内团队已经上线了自己的“特色打法”。 清华特奖选手创办的Sand.ai,上线了音画同步视频模型GAGA-1。 你可以把它理解为:一个专门练“嘴功”和“表演感”的视频生成模型:怎么样,奥特曼看了这视频都得说一句:好家伙!
10/13/2025 9:02:00 AM
Sora 2深夜来袭,OpenAI直接推出App,视频ChatGPT时刻到了
没想到吧,在别家节前卷大模型时,OpenAI 悄悄发布了 Sora2。 而且,这次是直接产品化,推出了 App,甚至还有配套的视频推送算法,声称可以防成瘾。 这是要做自己的 TikTok?
10/1/2025 11:01:00 AM
机器之心
生数科技获数亿元融资,视频生成引领AI商业化新潮流
近日,多模态 AI 领域的先锋企业生数科技宣布成功完成数亿元人民币的 A 轮融资。 这轮融资由博华资本领投,老股东百度战投、北京市人工智能产业投资基金等多个投资方继续跟进,显示出市场对生数科技的高度认可。 公司计划利用这笔资金进一步推动模型研发和技术创新,探索多模态大模型的潜力,进而加速产品拓展和用户服务。
9/19/2025 4:21:29 PM
AI在线
刚刚,李飞飞空间智能新成果震撼问世!3D世界生成进入「无限探索」时代
就在今天,斯坦福大学教授李飞飞的创业公司 World Labs 发布了新成果 —— 限量开放的测试预览版空间智能模型 Marble。 「只需一张图片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼! 」我们先看下面一段视频 demo: 李飞飞对此表示,「这是一个使用我们的 3D 世界生成模型创建的极其庞大的世界,它令我惊叹不已!
9/17/2025 9:18:56 AM
英伟达新GPU,超长上下文/视频生成专用
老黄对token密集型任务下手了。 刚刚,在AI Infra Summit上,英伟达宣布推出专为处理百万token级别的代码生成和生成式视频应用的全新GPU——NVIDIA Rubin CPX GPU。 老黄表示:Rubin CPX是首款为超大上下文AI量身定制的CUDA GPU,可以让模型“一口气”推理数百万token。
9/10/2025 9:38:56 AM
你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!
在《流浪地球 2》中图恒宇将 AI 永生数字生命变为可能,旨为将人类意识进行数字化备份并进行意识上传,以实现人类文明的完全数字化。 如今随着扩散模型的兴起极大,涌现出大量基于音频驱动的数字人生成工作。 具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。
8/31/2025 1:37:00 PM
机器之心
告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式
传统 video dubbing 技术长期受限于其固有的 “口型僵局”,即仅能编辑嘴部区域,导致配音所传递的情感与人物的面部、肢体表达严重脱节,削弱了观众的沉浸感。 现有新兴的音频驱动视频生成模型,在应对长视频序列时也暴露出身份漂移和片段过渡生硬等问题。 为解决这些痛点,Infinitetalk 引入 “稀疏帧 video dubbing”。
8/28/2025 9:11:56 AM
阿里通义万相预告Wan 2.2-S2V模型:解锁AI视频音频同步生成
近日,阿里通义万相团队在社交媒体平台X上发布预告,即将推出其最新的AI模型——Wan2.2-S2V。 这款新模型的核心亮点在于,它不仅具备强大的视频生成能力,还能同步生成音频,实现了视频与音频的深度融合。 根据团队发布的示例视频,该模型能够生成包含唱歌音频的AI视频,这标志着其在多模态AI生成技术上迈出了重要一步。
8/26/2025 11:31:10 AM
AI在线
首个接入GPT-5的视频Agent!一句话生成商业级广告大片,分镜配音字幕等全包了
AI视频生成,快速进入Agent时代! 只需一句提示词:生成一个F1赛车的现场解说视频。 AI即可自动完成分镜、画面、配音、字幕,生成结构完整、节奏在线的爆款视频。
8/25/2025 2:05:09 PM
仅50天!百度蒸汽机视频生成大模型升级2.0版本,价格低至行业70%
8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,Turbo版、Lite版、Pro版,及有声版全面开放,在行业内首次实现多人有声音视频一体化生成。 百度蒸汽机通过五大技术突破实现“需求即成片”,在生成电影级高清视频画面的同时,实现逼真环境音效、自然人物语音的同步输出。 即日起,用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验,企业用户可在千帆平台享受高性能视频生成服务。
8/21/2025 6:33:48 PM
云昭
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
AI新词
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
Claude
腾讯
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
AI视频
研究
大语言模型
生成
具身智能
Sora
工具
GPU
百度
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
深度学习
架构
生成式AI
DeepMind
编程
视觉
Transformer
AI模型
预测
亚马逊
特斯拉
MCP