视频生成
通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成
本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。 其他作者均为 Pico MR 团队核心成员。 去年一年来,Sora、可灵、Veo 等模型掀起了视频生成领域的革新。
6/18/2025 10:09:13 AM
人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
200 多年前,曹雪芹在《红楼梦》中写下这样一句话:假作真时真亦假,无为有处有还无。 翻译成大白话就是,当虚假被当作真实时,真实也会被视为虚假;当虚无被强行视为存在时,存在也会消解为虚无。 万万没想到,放在今天的 AI 语境下,这句古话竟精准地映照了现实。
6/17/2025 9:05:00 AM
AI ASMR突然火爆全网!3天狂揽近10万粉丝,一条切水果视频播放量破1650万
短视频平台熬夜冲浪的我突然发现,AI ASMR突然火了? ! 大家可以打开声音欣赏一下这条切割浆果的视频,它拿下了16500000的浏览量。
6/16/2025 8:54:00 AM
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。
6/13/2025 9:10:00 AM
256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
近日,抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。 该方案在多项技术优化的基础上,使用 256 块 NPU,在约 4 周内完成了一个 8B 参数模型的训练。 尽管资源有限,ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。
6/13/2025 9:03:00 AM
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
在A100上用310M模型,实现每秒超30帧自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD)。
6/12/2025 11:57:56 AM
微软必应推出全新视频创作工具,用户可轻松生成 AI 视频
微软必应(Microsoft Bing)于本周一正式推出了一款全新的 “Bing 视频创作器”,这项功能基于 OpenAI 的 Sora 模型,标志着视频生成能力的首次免费开放,普通用户也可以轻松通过文本提示生成视频。 此次 Bing 视频创作器的上线,让用户能够用简单的文字描述,创造出属于自己的短视频。 值得注意的是,这一功能目前仅支持移动设备,尚未在桌面端推出。
6/3/2025 9:01:04 AM
AI在线
昆仑万维开源 SkyReels-V2 模型,开启生成“无限时长”视频时代
其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。
4/21/2025 3:05:29 PM
清源
轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动
轨迹可控的视频生成来了,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。 近年来,视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。 在此基础上,(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。
3/27/2025 9:24:16 AM
量子位
清华大学开源 Video-T1:无需重新训练 AI视频秒变高清大片
近日,清华大学的研究团队开源了其最新的研究成果——Video-T1。 这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性,而无需重新进行昂贵的模型训练。 这一创新性的方法为视频生成领域带来了新的可能性。
3/26/2025 2:30:00 PM
AI在线
xAI收购AI视频生成初创公司Hotshot,加强与OpenAI Sora竞争
近日,埃隆·马斯克的人工智能公司xAI已收购了视频生成初创公司Hotshot,这标志着马斯克在AI视频生成领域的重要布局。 Hotshot首席执行官兼联合创始人Aakash Sastry周一在社交平台X上正式宣布了这一消息。 Sastry在公告中表示:"过去2年中,我们作为一个小团队建立了3个视频基础模型——Hotshot-XL、Hotshot Act One和Hotshot。
3/18/2025 9:16:00 AM
AI在线
千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/26/2025 12:54:00 PM
机器之心
谷歌AI视频生成模型Veo 2使用成本曝光:一分钟视频要30美元
谷歌近日悄然公布了其视频生成 AI 模型 Veo2的定价信息,Veo2最早是在去年12月被披露的,这一新模型吸引了不少关注。 根据谷歌的定价页面,使用 Veo2的费用为每秒50美分,这样算下来,每分钟的视频费用为30美元,每小时的视频费用则高达1800美元。 谷歌 DeepMind 的研究员乔恩・巴伦(Jon Barron)对这一定价进行了有趣的比较,他提到了备受瞩目的漫威电影《复仇者联盟:终局之战》的制作预算,该预算高达3.56亿美元,折合每秒约32,000美元。
2/24/2025 9:04:00 AM
AI在线
Gemini 或将支持视频生成?Google 应用代码泄露玄机
据国外媒体Android Authority报道,谷歌正持续为其 AI 数字助理 Gemini 增加新功能。 继深度情境理解、文件处理优化以及跨应用链接等功能后,Google 应用程序中的代码表明 Gemini 很快就能生成视频。 Google 应用 v16.6.23版本代码中暗示了这一新功能。
2/19/2025 9:55:00 AM
AI在线
港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了
刚刚,港大字节联手发布最新视频生成模型,让歪果网友直呼疯狂。 有人甚至直接RIP市场营销、TikTok用户和YouTube创作者。 你敢信,下面这一幕不是来自欧巴电视剧,而是AI生成的!
2/11/2025 9:00:00 AM
量子位
Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步
针对视频生成中的运动一致性难题,Meta GenAI 团队提出了一个全新框架 VideoJAM。VideoJAM 基于主流的 DiT 路线,但和 Sora 等纯 DiT 模型相比,动态效果直接拉满。
2/10/2025 12:04:23 PM
汪淼
可灵视频生成可控性为什么这么好?快手又公开了四篇研究
可灵,视频生成领域的佼佼者,近来动作不断。 继发布可灵 1.6 后,又公开了多项研究揭示视频生成的洞察与前沿探索 ——《快手可灵凭什么频繁刷屏? 揭秘背后三项重要研究》。
1/22/2025 6:21:00 PM
机器之心
快手可灵凭什么频繁刷屏?揭秘背后三项重要研究
“可灵(KLING)”,近半年来频繁亮相于国内外各大科技媒体,已然成为科技感与创意的代名词,它代表了快手 AI 团队在视频生成领域的前沿探索。 作为全球首个可公开体验的真实影像级视频生成大模型,可灵于 2024 年 6 月 6 日正式发布并上线。 在短短半年多的时间里,可灵已完成了数十次功能与效果的升级迭代,始终稳居全球视频生成领域的第一梯队,持续引领着行业效果的提升。
1/15/2025 10:57:00 AM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
英伟达
Anthropic
代码
训练
算法
Stable Diffusion
芯片
蛋白质
开发者
LLM
腾讯
生成式
Claude
苹果
AI新词
Agent
神经网络
AI for Science
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
GPU
AI设计
百度
华为
工具
大语言模型
搜索
具身智能
场景
RAG
字节跳动
大型语言模型
深度学习
预测
伟达
视觉
Transformer
视频生成
AGI
架构
神器推荐
亚马逊
Copilot
DeepMind
应用
安全