视频生成
英伟达新GPU,超长上下文/视频生成专用
老黄对token密集型任务下手了。 刚刚,在AI Infra Summit上,英伟达宣布推出专为处理百万token级别的代码生成和生成式视频应用的全新GPU——NVIDIA Rubin CPX GPU。 老黄表示:Rubin CPX是首款为超大上下文AI量身定制的CUDA GPU,可以让模型“一口气”推理数百万token。
9/10/2025 9:38:56 AM
你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!
在《流浪地球 2》中图恒宇将 AI 永生数字生命变为可能,旨为将人类意识进行数字化备份并进行意识上传,以实现人类文明的完全数字化。 如今随着扩散模型的兴起极大,涌现出大量基于音频驱动的数字人生成工作。 具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。
8/31/2025 1:37:00 PM
机器之心
告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式
传统 video dubbing 技术长期受限于其固有的 “口型僵局”,即仅能编辑嘴部区域,导致配音所传递的情感与人物的面部、肢体表达严重脱节,削弱了观众的沉浸感。 现有新兴的音频驱动视频生成模型,在应对长视频序列时也暴露出身份漂移和片段过渡生硬等问题。 为解决这些痛点,Infinitetalk 引入 “稀疏帧 video dubbing”。
8/28/2025 9:11:56 AM
阿里通义万相预告Wan 2.2-S2V模型:解锁AI视频音频同步生成
近日,阿里通义万相团队在社交媒体平台X上发布预告,即将推出其最新的AI模型——Wan2.2-S2V。 这款新模型的核心亮点在于,它不仅具备强大的视频生成能力,还能同步生成音频,实现了视频与音频的深度融合。 根据团队发布的示例视频,该模型能够生成包含唱歌音频的AI视频,这标志着其在多模态AI生成技术上迈出了重要一步。
8/26/2025 11:31:10 AM
AI在线
首个接入GPT-5的视频Agent!一句话生成商业级广告大片,分镜配音字幕等全包了
AI视频生成,快速进入Agent时代! 只需一句提示词:生成一个F1赛车的现场解说视频。 AI即可自动完成分镜、画面、配音、字幕,生成结构完整、节奏在线的爆款视频。
8/25/2025 2:05:09 PM
仅50天!百度蒸汽机视频生成大模型升级2.0版本,价格低至行业70%
8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,Turbo版、Lite版、Pro版,及有声版全面开放,在行业内首次实现多人有声音视频一体化生成。 百度蒸汽机通过五大技术突破实现“需求即成片”,在生成电影级高清视频画面的同时,实现逼真环境音效、自然人物语音的同步输出。 即日起,用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验,企业用户可在千帆平台享受高性能视频生成服务。
8/21/2025 6:33:48 PM
云昭
图生视频新玩法刷爆外网:图上画两笔就能动起来,终于告别文本提示
现在,AI看你画的就能懂。 Higgsfield AI 这家公司,有点意思。 不仅三天两头上线新功能,在 X 上疯狂刷存在感,还一度被传出和 Meta 洽谈收购事宜,虽然最后不了了之。
8/19/2025 11:09:00 AM
机器之心
腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容
随手拍的一张图,就能秒变3A级游戏大作? ! 刚刚,腾讯全新开源游戏视频生成框架Hunyuan-GameCraft,专为游戏环境设计,让任何人都能轻松搞定游戏制作。
8/14/2025 6:23:20 PM
谷歌Genie3全网玩疯!画质飞跃720P,网友造出西幻RPG游戏
全网疯玩Genie3,惊叹:这才是真正的大世界! 距离上一代Genie2,才刚刚过去7个多月,谷歌世界模型就像开了倍速进化:原本啥也看不清,突然耳聪目明一跃来到720P画质,原来只有几十秒的限时体验,现在也直接拉长到好几分钟。 世界类型也真正实现多重宇宙折叠,自然、历史、奇幻应有尽有。
8/8/2025 9:13:00 AM
一夜颠覆Sora神话,H200单卡5秒出片!全华人团队开源AI引爆视频圈
单块H200,5秒即生一个5秒视频。 最近,UCSD、UC伯克利、MBZUAI三大机构联手,祭出FastWan系视频生成模型。 论文地址:「稀疏蒸馏」全新的训练方案,实现了高效生成,让视频去噪速度实现70倍飙升。
8/7/2025 4:18:35 PM
马斯克再放大招!Grok AI短视频爆火,一夜全网刷屏
Grok的Imagine来了! 刚刚,马斯克宣布:Grok Imagine今天开始向所有Grok Heavy用户推出。 Grok iOS App升级,Imagine功能重磅升级!
8/4/2025 9:17:00 AM
阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达
继上周开源三连发之后,阿里昨晚又放出了新模型。 这次是全球首个开源的 MoE 架构的视频生成模型 Wan2.2,最大的亮点是具备了电影级美学控制能力。 该模型遵循 Apache 2.0 开源协议。
7/29/2025 3:10:00 PM
机器之心
阿里开源电影级AI视频模型!MoE架构,5B版本消费级显卡可跑
电影级视频生成模型来了。 来自阿里,来自通义——通义万相Wan2.2。 并且率先将MoE架构实现到了视频生成扩散模型中,能够实现电影级效果。
7/29/2025 9:12:00 AM
ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片
作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果? 例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材很满意,但拍摄时手抖影响了成片质量。 作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意?
7/24/2025 8:30:00 AM
大神Karpathy都投的AI实时视频生成模型:直播都能立即转,无限时长几乎零延迟
大神Karpathy都忍不住投资的AI初创,带来首个实时扩散视频生成! 用扫帚当麦克风,用盒子当混音台,无需昂贵设备就能开一场沉浸式直播。 喜欢游戏类型但不喜欢游戏的画面?
7/21/2025 8:46:00 AM
无需NeRF/高斯点后处理,视频秒变游戏模型成现实!新方法平均每帧仅需60秒 | ICCV 2025
只需一段视频,就可以直接生成可用的4D网格动画? 来自KAUST的研究团队提出全新方法V2M4,能够实现从单目视频直接生成高质量、显式的4D网格动画资源。 这意味着无需NeRF/高斯点后处理,可直接导入游戏/图形引擎。
7/21/2025 8:45:00 AM
免剪辑直出!AI生成多角色同框对话视频,动态路由精准绑定音频
近年来随着视频生成基础模型的涌现,音频驱动的说话人视频生成领域也取得了显著进展。 但现有方法主要聚焦于单角色场景,现有可生成两个角色对话视频的方法仅能单独地生成两个分离的说话人视频。 针对这一挑战,研究人员提出了首个专注同场景多角色说话视频生成的框架Bind-Your-Avatar该模型基于扩散Transformer(MM-DiT),通过细粒度的嵌入路由机制将「谁在说」与「说什么」绑定在一起,从而实现对音频–角色对应关系的精确控制。
7/17/2025 1:14:05 PM
拍我AI(PixVerse)上线多关键帧生成功能 ,AI视频创作从“片段”迈向“故事性表达”
今天,全球超6000万用户的拍我AI(PixVerse)在首尾帧模块中新增「多关键帧生成」功能。 用户可上传最多7张图片作为关键帧,在首尾帧模式下轻松生成最长30秒的连贯视频,显著增强创作者对AI视频叙事的掌控力。 ▲用户可通过拍我AI网页端首尾帧功能添加最多7张关键帧.
7/11/2025 5:32:21 PM
一水
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
AI模型