视频生成
单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta
视频生成模型太贵太慢怎么办? 普林斯顿大学和Meta联合推出的新框架LinGen,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度,使单张GPU就能在分钟级长度下生成高质量视频,大幅提高了模型的可扩展性和生成效率。 实验结果表明,LinGen在视频质量上优于DiT(胜率达75.6%),并且最高可减少15×(11.5×)FLOPs(延迟)。
6/18/2025 4:42:15 PM
10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!
本文由南京大学,香港大学,上海人工智能实验室,中国科学院大学与南洋理工大学 S-Lab 联合完成。 扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。 尽管一致性模型(Consistency Models)在加速扩散模型方面取得了重要进展,直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。
6/18/2025 4:39:02 PM
稀宇科技MiniMax推出视频生成模型Hailuo 02
稀宇科技在视频生成领域取得新进展,正式推出全新视频生成模型Hailuo02。 据悉,Hailuo02在处理高度复杂场景如体操动作时表现出色,是目前全球唯一能够实现此类效果的模型。 自去年8月底展示视频生成模型Demo网页以来,稀宇科技推出的海螺视频产品已帮助创作者生成超过3.7亿个视频,此次Hailuo02的推出进一步降低了视频创作门槛,提升了创作质量。
6/18/2025 12:01:54 PM
AI在线
通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成
本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。 其他作者均为 Pico MR 团队核心成员。 去年一年来,Sora、可灵、Veo 等模型掀起了视频生成领域的革新。
6/18/2025 10:09:13 AM
人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
200 多年前,曹雪芹在《红楼梦》中写下这样一句话:假作真时真亦假,无为有处有还无。 翻译成大白话就是,当虚假被当作真实时,真实也会被视为虚假;当虚无被强行视为存在时,存在也会消解为虚无。 万万没想到,放在今天的 AI 语境下,这句古话竟精准地映照了现实。
6/17/2025 9:05:00 AM
AI ASMR突然火爆全网!3天狂揽近10万粉丝,一条切水果视频播放量破1650万
短视频平台熬夜冲浪的我突然发现,AI ASMR突然火了? ! 大家可以打开声音欣赏一下这条切割浆果的视频,它拿下了16500000的浏览量。
6/16/2025 8:54:00 AM
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。
6/13/2025 9:10:00 AM
256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
近日,抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。 该方案在多项技术优化的基础上,使用 256 块 NPU,在约 4 周内完成了一个 8B 参数模型的训练。 尽管资源有限,ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。
6/13/2025 9:03:00 AM
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
在A100上用310M模型,实现每秒超30帧自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD)。
6/12/2025 11:57:56 AM
微软必应推出全新视频创作工具,用户可轻松生成 AI 视频
微软必应(Microsoft Bing)于本周一正式推出了一款全新的 “Bing 视频创作器”,这项功能基于 OpenAI 的 Sora 模型,标志着视频生成能力的首次免费开放,普通用户也可以轻松通过文本提示生成视频。 此次 Bing 视频创作器的上线,让用户能够用简单的文字描述,创造出属于自己的短视频。 值得注意的是,这一功能目前仅支持移动设备,尚未在桌面端推出。
6/3/2025 9:01:04 AM
AI在线
昆仑万维开源 SkyReels-V2 模型,开启生成“无限时长”视频时代
其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。
4/21/2025 3:05:29 PM
清源
轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动
轨迹可控的视频生成来了,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。 近年来,视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。 在此基础上,(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。
3/27/2025 9:24:16 AM
量子位
清华大学开源 Video-T1:无需重新训练 AI视频秒变高清大片
近日,清华大学的研究团队开源了其最新的研究成果——Video-T1。 这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性,而无需重新进行昂贵的模型训练。 这一创新性的方法为视频生成领域带来了新的可能性。
3/26/2025 2:30:00 PM
AI在线
xAI收购AI视频生成初创公司Hotshot,加强与OpenAI Sora竞争
近日,埃隆·马斯克的人工智能公司xAI已收购了视频生成初创公司Hotshot,这标志着马斯克在AI视频生成领域的重要布局。 Hotshot首席执行官兼联合创始人Aakash Sastry周一在社交平台X上正式宣布了这一消息。 Sastry在公告中表示:"过去2年中,我们作为一个小团队建立了3个视频基础模型——Hotshot-XL、Hotshot Act One和Hotshot。
3/18/2025 9:16:00 AM
AI在线
千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/26/2025 12:54:00 PM
机器之心
谷歌AI视频生成模型Veo 2使用成本曝光:一分钟视频要30美元
谷歌近日悄然公布了其视频生成 AI 模型 Veo2的定价信息,Veo2最早是在去年12月被披露的,这一新模型吸引了不少关注。 根据谷歌的定价页面,使用 Veo2的费用为每秒50美分,这样算下来,每分钟的视频费用为30美元,每小时的视频费用则高达1800美元。 谷歌 DeepMind 的研究员乔恩・巴伦(Jon Barron)对这一定价进行了有趣的比较,他提到了备受瞩目的漫威电影《复仇者联盟:终局之战》的制作预算,该预算高达3.56亿美元,折合每秒约32,000美元。
2/24/2025 9:04:00 AM
AI在线
Gemini 或将支持视频生成?Google 应用代码泄露玄机
据国外媒体Android Authority报道,谷歌正持续为其 AI 数字助理 Gemini 增加新功能。 继深度情境理解、文件处理优化以及跨应用链接等功能后,Google 应用程序中的代码表明 Gemini 很快就能生成视频。 Google 应用 v16.6.23版本代码中暗示了这一新功能。
2/19/2025 9:55:00 AM
AI在线
港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了
刚刚,港大字节联手发布最新视频生成模型,让歪果网友直呼疯狂。 有人甚至直接RIP市场营销、TikTok用户和YouTube创作者。 你敢信,下面这一幕不是来自欧巴电视剧,而是AI生成的!
2/11/2025 9:00:00 AM
量子位
资讯热榜
Microsoft Releases 700 Real AI Cases to Explore New Intelligent Work Models
微软发布 700 个真实 AI 案例,探索智能化工作新模式
腾讯LeVo来袭!媲美Suno 4.5的AI唱歌模型,支持零样本音色克隆
ByteDance Seaweed APT2 is震撼 released! Real-time Interactive AI Video Generation Unlocks a New Era of 3D Virtual World
Former DeepSeek executive secretly starts new AI Agent project, already backed by top VC
Luo Yonghao's digital person achieves success in its first live broadcast on Baidu e-commerce: GMV exceeds that of a real person in an hour in 26 minutes
Li Hang, head of ByteDance AI Lab, resigns; Seed team enters adjustment period
OpenAI Upgrades ChatGPT Search Functionality to Provide More Precise and Smarter Responses
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
代码
算法
英伟达
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
训练
智能体
神经网络
3D
研究
苹果
生成
计算
机器学习
Sora
Claude
AI设计
AI for Science
GPU
AI视频
人形机器人
华为
LLM
搜索
百度
xAI
场景
大语言模型
预测
伟达
字节跳动
深度学习
Agent
Transformer
工具
视觉
模态
神器推荐
RAG
大型语言模型
具身智能
文本
LLaMA
算力
Copilot
API
驾驶
应用
架构