视频生成
训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
27帧每秒的实时视频生成、35秒合成1分钟高清视频——这不是遥远的未来,而是刚刚由英伟达联合MIT与港大团队带来的现实。 全新一代视频扩散模型SANA-Video横空出世,凭借革命性的线性DiT架构与恒定显存KV缓存机制,不仅速度超越所有同类模型,更以高达720p的分辨率与分钟级时长生成,重新定义了AI视频生成的效率极限。 SANA-Video不仅在速度和性能上表现出色,生成的图像质量也非常高。
10/20/2025 8:58:00 AM
紧急应对Sora 2,谷歌推出Veo 3.1版本:一手实测
刚刚,谷歌Veo 3进行了更新,最新版本Veo 3.1,可以在这里体验,fast模式每次生成耗费20积分,相比sora 2 看起来贵很多,sora 2到目前为止都是无限制生成,完全免费我第一时间就做了一个Veo 3.1和sora 2的初步对比测试,测试下来,Veo 3.1审美以及提示词遵循能力还是不如sora 2,不过好处是,Veo 3.1支持上传人像进行创作,sora 2 目前图生视频不支持人像废话不多说,看玩法:上手测试1.图生视频:nanobanana Veo 3.1先用nanobanana生成一个超高清小姐姐提示词:复制进入:,提示词:展示穿搭。
10/16/2025 9:37:11 AM
实测“清华特奖版Sora”:一图一prompt直接生成视频,堪称嘴强王者
那边OpenAI的Sora2还没全面开放,这边国内团队已经上线了自己的“特色打法”。 清华特奖选手创办的Sand.ai,上线了音画同步视频模型GAGA-1。 你可以把它理解为:一个专门练“嘴功”和“表演感”的视频生成模型:怎么样,奥特曼看了这视频都得说一句:好家伙!
10/13/2025 9:02:00 AM
Sora 2深夜来袭,OpenAI直接推出App,视频ChatGPT时刻到了
没想到吧,在别家节前卷大模型时,OpenAI 悄悄发布了 Sora2。 而且,这次是直接产品化,推出了 App,甚至还有配套的视频推送算法,声称可以防成瘾。 这是要做自己的 TikTok?
10/1/2025 11:01:00 AM
机器之心
生数科技获数亿元融资,视频生成引领AI商业化新潮流
近日,多模态 AI 领域的先锋企业生数科技宣布成功完成数亿元人民币的 A 轮融资。 这轮融资由博华资本领投,老股东百度战投、北京市人工智能产业投资基金等多个投资方继续跟进,显示出市场对生数科技的高度认可。 公司计划利用这笔资金进一步推动模型研发和技术创新,探索多模态大模型的潜力,进而加速产品拓展和用户服务。
9/19/2025 4:21:29 PM
AI在线
刚刚,李飞飞空间智能新成果震撼问世!3D世界生成进入「无限探索」时代
就在今天,斯坦福大学教授李飞飞的创业公司 World Labs 发布了新成果 —— 限量开放的测试预览版空间智能模型 Marble。 「只需一张图片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼! 」我们先看下面一段视频 demo: 李飞飞对此表示,「这是一个使用我们的 3D 世界生成模型创建的极其庞大的世界,它令我惊叹不已!
9/17/2025 9:18:56 AM
英伟达新GPU,超长上下文/视频生成专用
老黄对token密集型任务下手了。 刚刚,在AI Infra Summit上,英伟达宣布推出专为处理百万token级别的代码生成和生成式视频应用的全新GPU——NVIDIA Rubin CPX GPU。 老黄表示:Rubin CPX是首款为超大上下文AI量身定制的CUDA GPU,可以让模型“一口气”推理数百万token。
9/10/2025 9:38:56 AM
你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!
在《流浪地球 2》中图恒宇将 AI 永生数字生命变为可能,旨为将人类意识进行数字化备份并进行意识上传,以实现人类文明的完全数字化。 如今随着扩散模型的兴起极大,涌现出大量基于音频驱动的数字人生成工作。 具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。
8/31/2025 1:37:00 PM
机器之心
告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式
传统 video dubbing 技术长期受限于其固有的 “口型僵局”,即仅能编辑嘴部区域,导致配音所传递的情感与人物的面部、肢体表达严重脱节,削弱了观众的沉浸感。 现有新兴的音频驱动视频生成模型,在应对长视频序列时也暴露出身份漂移和片段过渡生硬等问题。 为解决这些痛点,Infinitetalk 引入 “稀疏帧 video dubbing”。
8/28/2025 9:11:56 AM
阿里通义万相预告Wan 2.2-S2V模型:解锁AI视频音频同步生成
近日,阿里通义万相团队在社交媒体平台X上发布预告,即将推出其最新的AI模型——Wan2.2-S2V。 这款新模型的核心亮点在于,它不仅具备强大的视频生成能力,还能同步生成音频,实现了视频与音频的深度融合。 根据团队发布的示例视频,该模型能够生成包含唱歌音频的AI视频,这标志着其在多模态AI生成技术上迈出了重要一步。
8/26/2025 11:31:10 AM
AI在线
首个接入GPT-5的视频Agent!一句话生成商业级广告大片,分镜配音字幕等全包了
AI视频生成,快速进入Agent时代! 只需一句提示词:生成一个F1赛车的现场解说视频。 AI即可自动完成分镜、画面、配音、字幕,生成结构完整、节奏在线的爆款视频。
8/25/2025 2:05:09 PM
仅50天!百度蒸汽机视频生成大模型升级2.0版本,价格低至行业70%
8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,Turbo版、Lite版、Pro版,及有声版全面开放,在行业内首次实现多人有声音视频一体化生成。 百度蒸汽机通过五大技术突破实现“需求即成片”,在生成电影级高清视频画面的同时,实现逼真环境音效、自然人物语音的同步输出。 即日起,用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验,企业用户可在千帆平台享受高性能视频生成服务。
8/21/2025 6:33:48 PM
云昭
图生视频新玩法刷爆外网:图上画两笔就能动起来,终于告别文本提示
现在,AI看你画的就能懂。 Higgsfield AI 这家公司,有点意思。 不仅三天两头上线新功能,在 X 上疯狂刷存在感,还一度被传出和 Meta 洽谈收购事宜,虽然最后不了了之。
8/19/2025 11:09:00 AM
机器之心
腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容
随手拍的一张图,就能秒变3A级游戏大作? ! 刚刚,腾讯全新开源游戏视频生成框架Hunyuan-GameCraft,专为游戏环境设计,让任何人都能轻松搞定游戏制作。
8/14/2025 6:23:20 PM
谷歌Genie3全网玩疯!画质飞跃720P,网友造出西幻RPG游戏
全网疯玩Genie3,惊叹:这才是真正的大世界! 距离上一代Genie2,才刚刚过去7个多月,谷歌世界模型就像开了倍速进化:原本啥也看不清,突然耳聪目明一跃来到720P画质,原来只有几十秒的限时体验,现在也直接拉长到好几分钟。 世界类型也真正实现多重宇宙折叠,自然、历史、奇幻应有尽有。
8/8/2025 9:13:00 AM
一夜颠覆Sora神话,H200单卡5秒出片!全华人团队开源AI引爆视频圈
单块H200,5秒即生一个5秒视频。 最近,UCSD、UC伯克利、MBZUAI三大机构联手,祭出FastWan系视频生成模型。 论文地址:「稀疏蒸馏」全新的训练方案,实现了高效生成,让视频去噪速度实现70倍飙升。
8/7/2025 4:18:35 PM
马斯克再放大招!Grok AI短视频爆火,一夜全网刷屏
Grok的Imagine来了! 刚刚,马斯克宣布:Grok Imagine今天开始向所有Grok Heavy用户推出。 Grok iOS App升级,Imagine功能重磅升级!
8/4/2025 9:17:00 AM
阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达
继上周开源三连发之后,阿里昨晚又放出了新模型。 这次是全球首个开源的 MoE 架构的视频生成模型 Wan2.2,最大的亮点是具备了电影级美学控制能力。 该模型遵循 Apache 2.0 开源协议。
7/29/2025 3:10:00 PM
机器之心
资讯热榜
6秒视频10秒生成!全新AI视频神器 Grok Imagine 深度体验+元提示词分享
OpenAI 为 ChatGPT 推出智能记忆清理功能,Plus 用户率先体验
大的来了:谷歌Gemini 3.0 Pro单次生成网页版操作系统,Win、Mac、Linux一网打尽
「性价比王者」Claude Haiku 4.5来了,速度更快,成本仅为Sonnet 4的1/3
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
OpenAI官宣自研首颗芯片,AI界「M1时刻」九个月杀到!联手博通三年10GW
OpenAI与博通联手打造10GW定制AI加速器
刚刚,OpenAI官宣自研造芯,联手博通开发10吉瓦规模的AI加速器
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
LLM
代码
算法
芯片
Stable Diffusion
苹果
腾讯
AI for Science
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
大语言模型
Sora
工具
具身智能
GPU
RAG
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
场景
视频生成
深度学习
架构
DeepMind
视觉
预测
伟达
Transformer
编程
AI模型
神器推荐
亚马逊
MCP