AI在线 AI在线

视频生成

1080p飞升4k,浙大开源原生超高清视频生成方案,突破AI视频生成清晰度上限

为什么AI生成的视频总是模糊卡顿? 为什么细节纹理经不起放大? 为什么动作描述总与画面错位?
7/2/2025 8:30:00 AM

打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

李浩然,CMU 机器学习系研究生,研究方向是基础模型的长上下文建模、对齐、以及检索增强生成。 如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。 然而,它们在长视频理解和检索等长上下文任务中仍表现不佳。
6/30/2025 8:50:00 AM

AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

如果有人突然问你:「这张图片中有几颗草莓」? 你会如何快速回复? 面对五彩缤纷的果盘,我们往往需要反复端详,放大图片再逐一清点,耗费不少时间才能得到答案。
6/26/2025 3:05:45 PM

单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

视频生成模型太贵太慢怎么办? 普林斯顿大学和Meta联合推出的新框架LinGen,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度,使单张GPU就能在分钟级长度下生成高质量视频,大幅提高了模型的可扩展性和生成效率。 实验结果表明,LinGen在视频质量上优于DiT(胜率达75.6%),并且最高可减少15×(11.5×)FLOPs(延迟)。
6/18/2025 4:42:15 PM

10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

本文由南京大学,香港大学,上海人工智能实验室,中国科学院大学与南洋理工大学 S-Lab 联合完成。 扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。 尽管一致性模型(Consistency Models)在加速扩散模型方面取得了重要进展,直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。
6/18/2025 4:39:02 PM

稀宇科技MiniMax推出视频生成模型Hailuo 02

稀宇科技在视频生成领域取得新进展,正式推出全新视频生成模型Hailuo02。 据悉,Hailuo02在处理高度复杂场景如体操动作时表现出色,是目前全球唯一能够实现此类效果的模型。 自去年8月底展示视频生成模型Demo网页以来,稀宇科技推出的海螺视频产品已帮助创作者生成超过3.7亿个视频,此次Hailuo02的推出进一步降低了视频创作门槛,提升了创作质量。
6/18/2025 12:01:54 PM
AI在线

通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成

本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。 其他作者均为 Pico MR 团队核心成员。 去年一年来,Sora、可灵、Veo 等模型掀起了视频生成领域的革新。
6/18/2025 10:09:13 AM

人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了

200 多年前,曹雪芹在《红楼梦》中写下这样一句话:假作真时真亦假,无为有处有还无。 翻译成大白话就是,当虚假被当作真实时,真实也会被视为虚假;当虚无被强行视为存在时,存在也会消解为虚无。 万万没想到,放在今天的 AI 语境下,这句古话竟精准地映照了现实。
6/17/2025 9:05:00 AM

AI ASMR突然火爆全网!3天狂揽近10万粉丝,一条切水果视频播放量破1650万

短视频平台熬夜冲浪的我突然发现,AI ASMR突然火了? ! 大家可以打开声音欣赏一下这条切割浆果的视频,它拿下了16500000的浏览量。
6/16/2025 8:54:00 AM

CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分

视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。
6/13/2025 9:10:00 AM

256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV

近日,抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。 该方案在多项技术优化的基础上,使用 256 块 NPU,在约 4 周内完成了一个 8B 参数模型的训练。 尽管资源有限,ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。
6/13/2025 9:03:00 AM

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

在A100上用310M模型,实现每秒超30帧自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD)。
6/12/2025 11:57:56 AM

微软必应推出全新视频创作工具,用户可轻松生成 AI 视频

微软必应(Microsoft Bing)于本周一正式推出了一款全新的 “Bing 视频创作器”,这项功能基于 OpenAI 的 Sora 模型,标志着视频生成能力的首次免费开放,普通用户也可以轻松通过文本提示生成视频。 此次 Bing 视频创作器的上线,让用户能够用简单的文字描述,创造出属于自己的短视频。 值得注意的是,这一功能目前仅支持移动设备,尚未在桌面端推出。
6/3/2025 9:01:04 AM
AI在线

昆仑万维开源 SkyReels-V2 模型,开启生成“无限时长”视频时代

其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。
4/21/2025 3:05:29 PM
清源

轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

轨迹可控的视频生成来了,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。 近年来,视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。 在此基础上,(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。
3/27/2025 9:24:16 AM
量子位

清华大学开源 Video-T1:无需重新训练 AI视频秒变高清大片

近日,清华大学的研究团队开源了其最新的研究成果——Video-T1。 这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性,而无需重新进行昂贵的模型训练。 这一创新性的方法为视频生成领域带来了新的可能性。
3/26/2025 2:30:00 PM
AI在线

xAI收购AI视频生成初创公司Hotshot,加强与OpenAI Sora竞争

近日,埃隆·马斯克的人工智能公司xAI已收购了视频生成初创公司Hotshot,这标志着马斯克在AI视频生成领域的重要布局。 Hotshot首席执行官兼联合创始人Aakash Sastry周一在社交平台X上正式宣布了这一消息。 Sastry在公告中表示:"过去2年中,我们作为一个小团队建立了3个视频基础模型——Hotshot-XL、Hotshot Act One和Hotshot。
3/18/2025 9:16:00 AM
AI在线

千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/26/2025 12:54:00 PM
机器之心