谷歌 DeepMind 新研究：利用 AI 模型为无声视频配音

作者：漾仔 2024-06-18 10:23

据谷歌 DeepMind 新闻稿，DeepMind 近日公布了一项利用 AI 为无声视频生成背景音乐的“video-to-audio”技术。IT之家获悉，当前 DeepMind 这款 AI 模型依然存在局限性，需要开发者使用提示词为模型预先“介绍”视频可能的声音，暂时不能直接根据视频画面添加具体音效。据悉，该模型首先会将用户输入的视频进行拆解，此后结合用户的用户文字提示，利用扩散模型反复运算，最终以生成与视频画面协调的背景声音，例如输入一条“在黑暗中行走”的无声视频，再添加“电影、恐怖片、音乐、紧张、混凝土上的脚步

据谷歌 DeepMind 新闻稿，DeepMind 近日公布了一项利用 AI 为无声视频生成背景音乐的“video-to-audio”技术。

IT之家获悉，当前 DeepMind 这款 AI 模型依然存在局限性，需要开发者使用提示词为模型预先“介绍”视频可能的声音，暂时不能直接根据视频画面添加具体音效。

据悉，该模型首先会将用户输入的视频进行拆解，此后结合用户的用户文字提示，利用扩散模型反复运算，最终以生成与视频画面协调的背景声音，例如输入一条“在黑暗中行走”的无声视频，再添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示，相关模型就能生成恐怖风格的背景音效。

谷歌 DeepMind 新研究：利用 AI 模型为无声视频配音

DeepMind 同时表示，该“video-to-audio”模型可以为任何视频生成无限数量的音轨，还能够通过提示词内容判断生成的音频“正向性”或“反向性”，从而令生成的声音更贴近某些特定场景。

展望未来，DeepMind 表示研究人员正进一步优化这款“video-to-audio”模型，计划未来能够让模型直接根据视频内容，无须通过提示词即可生成视频背景音，同时还将改善视频中人物对白的口型同步能力。

Google、Meta又放大招！用嘴做视频的时代也要来了

大家好，这里是和你们聊设计的花生~ 近段时间 AI 工具发展势头越发迅猛，在为大家介绍过的 AI 模型中，DALLE·2 和 Midjourney 在文本生成图像的质量和精准度上有了大幅度优化提升，后起之秀 Stable Diffusion 则将 AI 模型的操作门槛降低到普通人都能轻松入门的高度。除了这些着力发展文本-图像（text-image）模型的科技公司，我在 8 月份也向大家概括地介绍过 Google、微软、Facebook 这些我们熟悉的互联网科技巨头在文本-图像 AI 模型上的研发成果，也同样有不凡的

10/11/2022 7:47:58 AM 夏花生

突破视频多模态大模型瓶颈！「合成数据」立大功，项目已开源

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

10/21/2024 1:02:00 PM 机器之心

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破

SALMONN 家族在首个通用音频理解模型（ICLR 2024）和首个全要素音视频理解模型 video-SALMONN（ICML 2024）基础上再次迎来重磅扩容，霸榜各大音视频理解榜单！全新一代 video-SALMONN 2/2 、首个开源推理增强型音视频理解大模型 video-SALMONN-o1（ICML 2025）、首个高帧率视频理解大模型 F-16（ICML 2025），以及无文本泄漏基准测试 AVUT（EMNLP 2025）正式发布。新阵容在视频理解能力与评测体系全线突破，全面巩固 SALMONN 家族在开源音视频理解大模型赛道的领先地位。

9/29/2025 3:20:00 PM 机器之心

谷歌 DeepMind 新研究：利用 AI 模型为无声视频配音

相关资讯

Google、Meta又放大招！用嘴做视频的时代也要来了

突破视频多模态大模型瓶颈！「合成数据」立大功，项目已开源

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破