视频生成

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

李浩然，CMU 机器学习系研究生，研究方向是基础模型的长上下文建模、对齐、以及检索增强生成。如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

6/30/2025 8:50:00 AM

AI秒懂短视频，快手大模型Keye-VL理解力爆表！技术细节全开源

如果有人突然问你：「这张图片中有几颗草莓」？你会如何快速回复？面对五彩缤纷的果盘，我们往往需要反复端详，放大图片再逐一清点，耗费不少时间才能得到答案。

6/26/2025 3:05:45 PM

单GPU搞定高清长视频生成，效率×10！引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

视频生成模型太贵太慢怎么办？普林斯顿大学和Meta联合推出的新框架LinGen，以MATE线性复杂度块取代传统自注意力，将视频生成从像素数的平方复杂度压到线性复杂度，使单张GPU就能在分钟级长度下生成高质量视频，大幅提高了模型的可扩展性和生成效率。实验结果表明，LinGen在视频质量上优于DiT（胜率达75.6%），并且最高可减少15×（11.5×）FLOPs（延迟）。

6/18/2025 4:42:15 PM

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

本文由南京大学，香港大学，上海人工智能实验室，中国科学院大学与南洋理工大学 S-Lab 联合完成。扩散模型在视频合成任务中取得了显著成果，但其依赖迭代去噪过程，带来了巨大的计算开销。尽管一致性模型（Consistency Models）在加速扩散模型方面取得了重要进展，直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。

6/18/2025 4:39:02 PM

稀宇科技MiniMax推出视频生成模型Hailuo 02

稀宇科技在视频生成领域取得新进展，正式推出全新视频生成模型Hailuo02。据悉，Hailuo02在处理高度复杂场景如体操动作时表现出色，是目前全球唯一能够实现此类效果的模型。自去年8月底展示视频生成模型Demo网页以来，稀宇科技推出的海螺视频产品已帮助创作者生成超过3.7亿个视频，此次Hailuo02的推出进一步降低了视频创作门槛，提升了创作质量。

6/18/2025 12:01:54 PM AI在线

通向世界模型关键一步：EX-4D来了，实现单目视频到自由视角生成

本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士，近年来研究领域包括3D 重建与 4D 场景和视频生成，致力于得到一种最佳的物理世界表示模型。其他作者均为 Pico MR 团队核心成员。去年一年来，Sora、可灵、Veo 等模型掀起了视频生成领域的革新。

6/18/2025 10:09:13 AM

人类飞机上吵架看呆袋鼠」刷屏全网，7000万人被AI耍了

200 多年前，曹雪芹在《红楼梦》中写下这样一句话：假作真时真亦假，无为有处有还无。翻译成大白话就是，当虚假被当作真实时，真实也会被视为虚假；当虚无被强行视为存在时，存在也会消解为虚无。万万没想到，放在今天的 AI 语境下，这句古话竟精准地映照了现实。

6/17/2025 9:05:00 AM

AI ASMR突然火爆全网！3天狂揽近10万粉丝，一条切水果视频播放量破1650万

短视频平台熬夜冲浪的我突然发现，AI ASMR突然火了？！大家可以打开声音欣赏一下这条切割浆果的视频，它拿下了16500000的浏览量。

6/16/2025 8:54:00 AM

CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

6/13/2025 9:10:00 AM

256块NPU训成8B视频模型、超越Sora等一众闭源！抖音内容技术团队开源ContentV

近日，抖音内容技术团队开源了 ContentV，一种面向视频生成任务的高效训练方案。该方案在多项技术优化的基础上，使用 256 块 NPU，在约 4 周内完成了一个 8B 参数模型的训练。尽管资源有限，ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。

6/13/2025 9:03:00 AM

每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

在A100上用310M模型，实现每秒超30帧自回归视频生成，同时画面还保持高质量！视频生成现在都快这个程度了？最近，来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD)。

6/12/2025 11:57:56 AM

微软必应推出全新视频创作工具，用户可轻松生成 AI 视频

微软必应（Microsoft Bing）于本周一正式推出了一款全新的 “Bing 视频创作器”，这项功能基于 OpenAI 的 Sora 模型，标志着视频生成能力的首次免费开放，普通用户也可以轻松通过文本提示生成视频。此次 Bing 视频创作器的上线，让用户能够用简单的文字描述，创造出属于自己的短视频。值得注意的是，这一功能目前仅支持移动设备，尚未在桌面端推出。

6/3/2025 9:01:04 AM AI在线

昆仑万维开源 SkyReels-V2 模型，开启生成“无限时长”视频时代

其通过结合多模态大语言模型（MLLM）、多阶段预训练（Multi-stage Pretraining）、强化学习（Reinforcement Learning）和扩散强迫（Diffusion-forcing）框架来实现协同优化。

4/21/2025 3:05:29 PM 清源

轨迹可控视频生成新范式，复旦微软破解视频生成难题，精准控制任意物体运动

轨迹可控的视频生成来了，支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。近年来，视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。在此基础上，（trajectory-controllable video generation）涌现了许多工作，使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。

3/27/2025 9:24:16 AM 量子位

清华大学开源 Video-T1：无需重新训练 AI视频秒变高清大片

3/26/2025 2:30:00 PM AI在线

xAI收购AI视频生成初创公司Hotshot，加强与OpenAI Sora竞争

近日，埃隆·马斯克的人工智能公司xAI已收购了视频生成初创公司Hotshot，这标志着马斯克在AI视频生成领域的重要布局。 Hotshot首席执行官兼联合创始人Aakash Sastry周一在社交平台X上正式宣布了这一消息。 Sastry在公告中表示:"过去2年中，我们作为一个小团队建立了3个视频基础模型——Hotshot-XL、Hotshot Act One和Hotshot。

3/18/2025 9:16:00 AM AI在线

千帧长视频时代到来！MIT全新扩散算法让任意模型突破时长极限

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

2/26/2025 12:54:00 PM 机器之心

谷歌AI视频生成模型Veo 2使用成本曝光：一分钟视频要30美元

谷歌近日悄然公布了其视频生成 AI 模型 Veo2的定价信息，Veo2最早是在去年12月被披露的，这一新模型吸引了不少关注。根据谷歌的定价页面，使用 Veo2的费用为每秒50美分，这样算下来，每分钟的视频费用为30美元，每小时的视频费用则高达1800美元。谷歌 DeepMind 的研究员乔恩・巴伦（Jon Barron）对这一定价进行了有趣的比较，他提到了备受瞩目的漫威电影《复仇者联盟:终局之战》的制作预算，该预算高达3.56亿美元，折合每秒约32，000美元。

2/24/2025 9:04:00 AM AI在线

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 大语言模型字节跳动 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

视频生成

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

AI秒懂短视频，快手大模型Keye-VL理解力爆表！技术细节全开源

单GPU搞定高清长视频生成，效率×10！引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

稀宇科技MiniMax推出视频生成模型Hailuo 02

通向世界模型关键一步：EX-4D来了，实现单目视频到自由视角生成

人类飞机上吵架看呆袋鼠」刷屏全网，7000万人被AI耍了

AI ASMR突然火爆全网！3天狂揽近10万粉丝，一条切水果视频播放量破1650万

CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

256块NPU训成8B视频模型、超越Sora等一众闭源！抖音内容技术团队开源ContentV

每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

微软必应推出全新视频创作工具，用户可轻松生成 AI 视频

昆仑万维开源 SkyReels-V2 模型，开启生成“无限时长”视频时代

轨迹可控视频生成新范式，复旦微软破解视频生成难题，精准控制任意物体运动

清华大学开源 Video-T1：无需重新训练 AI视频秒变高清大片

xAI收购AI视频生成初创公司Hotshot，加强与OpenAI Sora竞争

千帧长视频时代到来！MIT全新扩散算法让任意模型突破时长极限

​谷歌AI视频生成模型Veo 2使用成本曝光：一分钟视频要30美元

谷歌AI视频生成模型Veo 2使用成本曝光：一分钟视频要30美元