AI在线 AI在线

Google Gemma团队发布Magenta RealTime:开源实时音乐生成模型引发关注

近日,Google Gemma团队正式发布了Magenta RealTime,一款专为实时音乐生成设计的开源AI模型。 这一突破性发布标志着Google在AI音乐创作领域的又一重要进展,为音乐创作者和开发者提供了全新的创作工具。 以下内容综合了来自AIbase及其他网络资源的最新信息,展现了Magenta RT的核心特点及其潜在影响。

近日,Google Gemma团队正式发布了Magenta RealTime,一款专为实时音乐生成设计的开源AI模型。这一突破性发布标志着Google在AI音乐创作领域的又一重要进展,为音乐创作者和开发者提供了全新的创作工具。以下内容综合了来自AIbase及其他网络资源的最新信息,展现了Magenta RT的核心特点及其潜在影响。

Magenta RealTime:轻量高效的音乐生成利器

Magenta RealTime是一款基于Transformer架构的音乐生成模型,参数规模为 8 亿,相较于其他大型模型显得轻量而高效。据Google官方介绍,该模型基于Lyria RealTime技术,是Google DeepMind开发的实时音乐生成模型的开源版本。Magenta RT能够在短时间内生成高质量的48kHz立体声音频,特别适合需要即时反馈的场景,如现场表演、DJ混音或快速音乐原型设计。

该模型以 2 秒音频片段为单位进行生成,并以 10 秒的上下文进行条件生成,确保音乐输出的连贯性和动态性。Magenta RT支持通过文本提示实时调整音乐风格、节奏和情感,为用户提供了高度灵活的创作体验。例如,创作者可以通过更改提示强度,动态切换音乐风格,从爵士到电子音乐的无缝过渡成为可能。这种实时交互能力使其在现场音乐创作和快速原型设计中具有显著优势。

开源与社区协作:赋能开发者创新

Magenta RealTime采用Apache 2. 0 许可协议,完全开源,允许开发者自由使用、修改和分发模型。Google Gemma团队在Hugging Face平台上发布了模型(编号为Google第 1000 个模型),并提供了详细的GitHub仓库、博客文章以及视频演示,方便开发者快速上手。AIbase报道指出,Magenta RT能够在免费的Google Colab环境中运行,进一步降低了使用门槛,使更多开发者能够参与到AI音乐创作的探索中。

此外,Google还计划发布Magenta RT的微调指南和技术报告,为开发者提供更多自定义模型的机会。这种开放的生态策略不仅推动了技术创新,也为音乐创作社区注入了新的活力。AIbase强调,Magenta RT的开源特性使其成为中小型开发团队和独立创作者的理想选择,能够在本地设备上高效运行,降低了对云端算力的依赖。

技术亮点与应用场景

Magenta RealTime的训练数据集包括约 19 万小时的器乐库存音乐,涵盖多种风格和流派,确保了模型生成音乐的多样性和高质量。AIbase报道称,该模型在实时混音方面表现出色,特别适合需要动态调整的场景,例如为游戏、直播或沉浸式体验生成背景音乐。用户可以通过简单的文本提示或参数调整,实时改变音乐的氛围和风格,极大地提升了创作效率。

尽管Magenta RT的单次输出限制在 10 秒,但其设计初衷并非生成完整的长篇音乐,而是为实时混音和动态创作提供支持。正如AIbase所述,这一特性使其更像是“DJ的数字助手”,能够根据现场需求快速生成音乐片段,创造无限长的混音体验。

模型地址:https://huggingface.co/google/magenta-realtime

相关资讯

大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来

过去一年中,连连取得突破的大模型正在重塑机器人研究领域。在最先进的大模型成为具身机器人感知世界的「大脑」之后,机器人的进化速度取得了远超想象的进步。7 月,谷歌 DeepMind 宣布推出 RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型。只需要向对话一样下达命令,它就能在一堆图片中辨认出霉霉,送给她一罐「快乐水」。甚至能主动思考,完成了从「选择灭绝的动物」到抓取桌子上的塑料恐龙这种多阶段推理的飞跃。在 RT-2 之后,谷歌 DeepMind 又提出了 Q-Transformer,机器人界也有
1/8/2024 10:20:00 AM
机器之心

谷歌具身智能新研究:比RT-2优秀的RT-H来了

RT-H 在一系列机器人任务中的表现都优于 RT-2。随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密,人工智能正在越来越多地走向现实世界,因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中,谷歌的「RT」系列机器人始终走在前沿(参见《大模型正在重构机器人,谷歌 Deepmind 这样定义具身智能的未来》)。谷歌 DeepMind 去年 7 月推出的 RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型。只需要像对话一样下达命令,它就能在一堆图片中辨认出霉霉,并送给她一罐可乐
3/11/2024 11:46:00 AM
机器之心

量大管饱全线开花!一文看懂2025 Google I/O开发者大会

今年,Google 算是打了个翻身仗。 不断的掏出新东西,不断的让大家,感受到惊喜。 而万众期待的 Google I/O 开发者大会,终于在昨天凌晨 1 点正式开始了。
5/22/2025 2:13:11 AM
数字生命卡兹克
  • 1