AI在线 AI在线

谷歌 DeepMind 新研究:利用 AI 模型为无声视频配音

据谷歌 DeepMind 新闻稿,DeepMind 近日公布了一项利用 AI 为无声视频生成背景音乐的“video-to-audio”技术。IT之家获悉,当前 DeepMind 这款 AI 模型依然存在局限性,需要开发者使用提示词为模型预先“介绍”视频可能的声音,暂时不能直接根据视频画面添加具体音效。据悉,该模型首先会将用户输入的视频进行拆解,此后结合用户的用户文字提示,利用扩散模型反复运算,最终以生成与视频画面协调的背景声音,例如输入一条“在黑暗中行走”的无声视频,再添加“电影、恐怖片、音乐、紧张、混凝土上的脚步

据谷歌 DeepMind 新闻稿,DeepMind 近日公布了一项利用 AI 为无声视频生成背景音乐的“video-to-audio”技术。

IT之家获悉,当前 DeepMind 这款 AI 模型依然存在局限性,需要开发者使用提示词为模型预先“介绍”视频可能的声音,暂时不能直接根据视频画面添加具体音效

据悉,该模型首先会将用户输入的视频进行拆解,此后结合用户的用户文字提示,利用扩散模型反复运算,最终以生成与视频画面协调的背景声音,例如输入一条“在黑暗中行走”的无声视频,再添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示,相关模型就能生成恐怖风格的背景音效。

谷歌 DeepMind 新研究:利用 AI 模型为无声视频配音

DeepMind 同时表示,该“video-to-audio”模型可以为任何视频生成无限数量的音轨,还能够通过提示词内容判断生成的音频“正向性”或“反向性”,从而令生成的声音更贴近某些特定场景

展望未来,DeepMind 表示研究人员正进一步优化这款“video-to-audio”模型,计划未来能够让模型直接根据视频内容,无须通过提示词即可生成视频背景音,同时还将改善视频中人物对白的口型同步能力。

相关资讯

Google、Meta又放大招!用嘴做视频的时代也要来了

大家好,这里是和你们聊设计的花生~ 近段时间 AI 工具发展势头越发迅猛,在为大家介绍过的 AI 模型中,DALLE·2 和 Midjourney 在文本生成图像的质量和精准度上有了大幅度优化提升,后起之秀 Stable Diffusion 则将 AI 模型的操作门槛降低到普通人都能轻松入门的高度。除了这些着力发展文本-图像(text-image)模型的科技公司,我在 8 月份也向大家概括地介绍过 Google、微软、Facebook 这些我们熟悉的互联网科技巨头在文本-图像 AI 模型上的研发成果,也同样有不凡的
10/11/2022 7:47:58 AM
夏花生

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
10/21/2024 1:02:00 PM
机器之心

Video Ocean发布2K/4K HDR视频生成工具,性价比引爆全网

5月21日,潞晨科技旗下Video Ocean重磅推出全新AI视频生成工具,支持5-10秒内生成2K/4K HDR高质量大片,迅速登顶Product Hunt热门榜单,引发广泛关注。 Video Ocean提供海量模板,内置Laugh、Cakeify、Crush等炫酷特效,用户一键套用即可轻松创作电影级视频,即使新手也能快速上手,秒变“导演”。 该工具支持文生视频、图生视频及角色生视频功能,满足多样化创作需求,从3D写实到赛博朋克风格均可实现。
5/22/2025 10:01:01 AM
AI在线
  • 1