AI在线 AI在线

视频生成

训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命

27帧每秒的实时视频生成、35秒合成1分钟高清视频——这不是遥远的未来,而是刚刚由英伟达联合MIT与港大团队带来的现实。 全新一代视频扩散模型SANA-Video横空出世,凭借革命性的线性DiT架构与恒定显存KV缓存机制,不仅速度超越所有同类模型,更以高达720p的分辨率与分钟级时长生成,重新定义了AI视频生成的效率极限。 SANA-Video不仅在速度和性能上表现出色,生成的图像质量也非常高。
10/20/2025 8:58:00 AM

紧急应对Sora 2,谷歌推出Veo 3.1版本:一手实测

刚刚,谷歌Veo 3进行了更新,最新版本Veo 3.1,可以在这里体验,fast模式每次生成耗费20积分,相比sora 2 看起来贵很多,sora 2到目前为止都是无限制生成,完全免费我第一时间就做了一个Veo 3.1和sora 2的初步对比测试,测试下来,Veo 3.1审美以及提示词遵循能力还是不如sora 2,不过好处是,Veo 3.1支持上传人像进行创作,sora 2 目前图生视频不支持人像废话不多说,看玩法:上手测试1.图生视频:nanobanana  Veo 3.1先用nanobanana生成一个超高清小姐姐提示词:复制进入:,提示词:展示穿搭。
10/16/2025 9:37:11 AM

实测“清华特奖版Sora”:一图一prompt直接生成视频,堪称嘴强王者

那边OpenAI的Sora2还没全面开放,这边国内团队已经上线了自己的“特色打法”。 清华特奖选手创办的Sand.ai,上线了音画同步视频模型GAGA-1。 你可以把它理解为:一个专门练“嘴功”和“表演感”的视频生成模型:怎么样,奥特曼看了这视频都得说一句:好家伙!
10/13/2025 9:02:00 AM

Sora 2深夜来袭,OpenAI直接推出App,视频ChatGPT时刻到了

没想到吧,在别家节前卷大模型时,OpenAI 悄悄发布了 Sora2。 而且,这次是直接产品化,推出了 App,甚至还有配套的视频推送算法,声称可以防成瘾。 这是要做自己的 TikTok?
10/1/2025 11:01:00 AM
机器之心

生数科技获数亿元融资,视频生成引领AI商业化新潮流

近日,多模态 AI 领域的先锋企业生数科技宣布成功完成数亿元人民币的 A 轮融资。 这轮融资由博华资本领投,老股东百度战投、北京市人工智能产业投资基金等多个投资方继续跟进,显示出市场对生数科技的高度认可。 公司计划利用这笔资金进一步推动模型研发和技术创新,探索多模态大模型的潜力,进而加速产品拓展和用户服务。
9/19/2025 4:21:29 PM
AI在线

刚刚,李飞飞空间智能新成果震撼问世!3D世界生成进入「无限探索」时代

就在今天,斯坦福大学教授李飞飞的创业公司 World Labs 发布了新成果 —— 限量开放的测试预览版空间智能模型 Marble。 「只需一张图片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼! 」我们先看下面一段视频 demo: 李飞飞对此表示,「这是一个使用我们的 3D 世界生成模型创建的极其庞大的世界,它令我惊叹不已!
9/17/2025 9:18:56 AM

英伟达新GPU,超长上下文/视频生成专用

老黄对token密集型任务下手了。 刚刚,在AI Infra Summit上,英伟达宣布推出专为处理百万token级别的代码生成和生成式视频应用的全新GPU——NVIDIA Rubin CPX GPU。 老黄表示:Rubin CPX是首款为超大上下文AI量身定制的CUDA GPU,可以让模型“一口气”推理数百万token。
9/10/2025 9:38:56 AM

你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!

在《流浪地球 2》中图恒宇将 AI 永生数字生命变为可能,旨为将人类意识进行数字化备份并进行意识上传,以实现人类文明的完全数字化。 如今随着扩散模型的兴起极大,涌现出大量基于音频驱动的数字人生成工作。 具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。
8/31/2025 1:37:00 PM
机器之心

告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式

传统 video dubbing 技术长期受限于其固有的 “口型僵局”,即仅能编辑嘴部区域,导致配音所传递的情感与人物的面部、肢体表达严重脱节,削弱了观众的沉浸感。 现有新兴的音频驱动视频生成模型,在应对长视频序列时也暴露出身份漂移和片段过渡生硬等问题。 为解决这些痛点,Infinitetalk 引入 “稀疏帧 video dubbing”。
8/28/2025 9:11:56 AM

阿里通义万相预告Wan 2.2-S2V模型:解锁AI视频音频同步生成

近日,阿里通义万相团队在社交媒体平台X上发布预告,即将推出其最新的AI模型——Wan2.2-S2V。 这款新模型的核心亮点在于,它不仅具备强大的视频生成能力,还能同步生成音频,实现了视频与音频的深度融合。 根据团队发布的示例视频,该模型能够生成包含唱歌音频的AI视频,这标志着其在多模态AI生成技术上迈出了重要一步。
8/26/2025 11:31:10 AM
AI在线

首个接入GPT-5的视频Agent!一句话生成商业级广告大片,分镜配音字幕等全包了

AI视频生成,快速进入Agent时代! 只需一句提示词:生成一个F1赛车的现场解说视频。 AI即可自动完成分镜、画面、配音、字幕,生成结构完整、节奏在线的爆款视频。
8/25/2025 2:05:09 PM

仅50天!百度蒸汽机视频生成大模型升级2.0版本,价格低至行业70%

8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,Turbo版、Lite版、Pro版,及有声版全面开放,在行业内首次实现多人有声音视频一体化生成。 百度蒸汽机通过五大技术突破实现“需求即成片”,在生成电影级高清视频画面的同时,实现逼真环境音效、自然人物语音的同步输出。 即日起,用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验,企业用户可在千帆平台享受高性能视频生成服务。
8/21/2025 6:33:48 PM
云昭

图生视频新玩法刷爆外网:图上画两笔就能动起来,终于告别文本提示

现在,AI看你画的就能懂。 Higgsfield AI 这家公司,有点意思。 不仅三天两头上线新功能,在 X 上疯狂刷存在感,还一度被传出和 Meta 洽谈收购事宜,虽然最后不了了之。
8/19/2025 11:09:00 AM
机器之心

腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容

随手拍的一张图,就能秒变3A级游戏大作? ! 刚刚,腾讯全新开源游戏视频生成框架Hunyuan-GameCraft,专为游戏环境设计,让任何人都能轻松搞定游戏制作。
8/14/2025 6:23:20 PM

谷歌Genie3全网玩疯!画质飞跃720P,网友造出西幻RPG游戏

全网疯玩Genie3,惊叹:这才是真正的大世界! 距离上一代Genie2,才刚刚过去7个多月,谷歌世界模型就像开了倍速进化:原本啥也看不清,突然耳聪目明一跃来到720P画质,原来只有几十秒的限时体验,现在也直接拉长到好几分钟。 世界类型也真正实现多重宇宙折叠,自然、历史、奇幻应有尽有。
8/8/2025 9:13:00 AM

一夜颠覆Sora神话,H200单卡5秒出片!全华人团队开源AI引爆视频圈

单块H200,5秒即生一个5秒视频。 最近,UCSD、UC伯克利、MBZUAI三大机构联手,祭出FastWan系视频生成模型。 论文地址:「稀疏蒸馏」全新的训练方案,实现了高效生成,让视频去噪速度实现70倍飙升。
8/7/2025 4:18:35 PM

马斯克再放大招!Grok AI短视频爆火,一夜全网刷屏

Grok的Imagine来了! 刚刚,马斯克宣布:Grok Imagine今天开始向所有Grok Heavy用户推出。 Grok iOS App升级,Imagine功能重磅升级!
8/4/2025 9:17:00 AM

阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达

继上周开源三连发之后,阿里昨晚又放出了新模型。 这次是全球首个开源的 MoE 架构的视频生成模型 Wan2.2,最大的亮点是具备了电影级美学控制能力。 该模型遵循 Apache 2.0 开源协议。
7/29/2025 3:10:00 PM
机器之心