AI在线 AI在线

有趣!英伟达新AI模型Fugatto可以生成从未有过的声音

英伟达已经成为AI时代的领头羊,除了卖GPU,它自己也在开发大语言模型。 最近,英伟达开发的Fugatto模型曝光,它将最新的AI训练方案与技术融合,可以以之前未曾见过的方式处理音乐、语音及其它声音,创造出从未有过的声音。 语音生成AI模型没有什么稀奇的,市场上已经有很多,输入文本提示词就可以合成语音和音乐,但Fugatto似乎比之前的语音AI模型更进一步。

有趣!英伟达新AI模型Fugatto可以生成从未有过的声音

英伟达已经成为AI时代的领头羊,除了卖GPU,它自己也在开发大语言模型。最近,英伟达开发的Fugatto模型曝光,它将最新的AI训练方案与技术融合,可以以之前未曾见过的方式处理音乐、语音及其它声音,创造出从未有过的声音。

语音生成AI模型没有什么稀奇的,市场上已经有很多,输入文本提示词就可以合成语音和音乐,但Fugatto似乎比之前的语音AI模型更进一步。

目前Fugatto还没有公测,英伟达只是通过网站公布一些语音生成样本。从样本看,Fugatto可以调节音频特征,生成一些奇怪的声音,比如让萨克斯声音像狗叫,让人声变得像水下发出的声音。老实说,合成的声音并不怎么动听,但很有趣。

英伟达研究人员Rafael Valle说:“我们想创建一个模型,它可以像人一样理解声音、生成声音。”

从技术角度看,Fugatto实际上是一个生成Transformer模型,它是基于英伟达之前研究的技术开发的,比如语音模型、声音理解技术。Fugatto拥有25亿个参数,它是用英伟达DGX系统开发的。

英伟达在论文中谈到Fugatto开发的难点。以当前的技术,根据音频和语言之间有意义的联系建立一个数据库十分困难。现在的标准语言模型可以从文本数据中推断出不同的指令,但如果没有具体指引,模型很难从音频中总结出特征。

最终,英伟达用LLM(大语言模型)生成一个Python脚本,它可以创建大量基于模板、格式自由的指令,这些指令可以描述不同的声音“个性”,比如标准、年轻、30多岁、专业人士等特征,然后还可以给声音的“个性”增加其它指令,比如绝对指令(合成一个快乐的声音)和相对指令(增强声音的快乐度)。

在训练数据中,AI会学着理解声音的不同特征,然后将不同的特征结合起来,生成全新的声音,也就是我们人类之前没有听过的声音。

论文谈到的技术相当复杂。总之,英伟达开发了所谓的ComposableART系统,它合成的声音让小提琴声音像孩子的笑声,让五弦琴的声音像音乐家在风雨中演奏,让工厂机器发出金属般的痛苦尖叫。

Fugatto混合声音的能力给人留下深刻印象,要知道,声音数据来自不同的开源平台数据集,声音之间有很大不同,将它们完美混合不是一件易事。

还有一点值得表扬,Fugatto将每个单独的音频特征视为可调谐的连续体。比如,Fugatto可以将吉它声和流水声混合,让吉它声权重高一些或者让流水声权重高一些,合成的声音是完全不同的。又例如,Fugatto可以让说话时的法语口音重一些或者轻一些,可以改变语音片断中的悲伤程度。

Fugatto还有其它一些功能,这些功能之前的模型也有,比如改变语音中的情绪,从音乐中分离出人声。

英伟达希望Fugatto能成为声音艺术家的新工具,它的本意并不是取代创作者。NVIDIA初创加速计划 ( NVIDIA Inception) 的参与者、作曲家、制作人Ido Zmishlany说:“音乐的历史实际上就是科技的历史。电吉它带来了摇滚,当采样器出现,嘻哈随即诞生。有了AI,我们可以书写音乐的下一篇章。我们有了一种新的乐器,一种制作音乐的新工具,这太令人兴奋了。”

你觉得这样的工具有趣吗?(小刀)

相关资讯

江西:促进智能眼镜、智能手表、VR / AR 设备等智能设备消费

江西:促进智能眼镜、智能手表、VR / AR 设备等智能设备消费

AI在线 12 月 24 日消息,江西省人民政府今日印发《江西省“人工智能 ”行动方案》,其中提出,“人工智能 ”生活消费行动方面,加强云侧智能决策、场景引擎和自适应感知等关键技术与购物、文娱、家居等领域深度融合,发展新型智慧电商、智慧娱乐、智慧家居等新业态。 促进智能眼镜、智能手表、VR / AR 设备等智能设备消费。 据AI在线了解,《方案》还提到,加大具身智能、消费电子等领域传感器研发生产,加快智能穿戴、虚拟现实等领域产品创新,支持企业开展光通信、显示、音视频等模组研发应用。
12/24/2025 4:15:36 PM 清源
只谈「技术」,不谈「安全」?今晚,我们聊聊人工智能的AB面

只谈「技术」,不谈「安全」?今晚,我们聊聊人工智能的AB面

聚焦隐私计算、Deepfake、对抗学习等AI安全领域,精彩全分享。
2/7/2021 12:57:00 PM 机器之心
优必选科技四上春晚,“拓荒牛”机器人展现硬科技创新力量

优必选科技四上春晚,“拓荒牛”机器人展现硬科技创新力量

2月11日,在央视2021牛年春晚的舞台上,优必选科技全新研发的首款大型四足机器人化身“拓荒牛”,与刘德华、王一博、关晓彤等一起呈现了科技感十足的创意表演《牛起来》。它们以拼搏进取的深圳 “拓荒牛”为设计原形,融合祥云及中国红等传统文化元素,以绚丽的灯光及机械结构诠释科技美感,伴随激昂的音乐奔腾向前。从2016年春晚540台Alpha机器人登台齐舞到2018年春晚24台Jimu汪汪组队拜年,再到2019年春晚6台Walker机器人与演员同台表演歌舞《青春畅想》……优必选科技已经四次登上春晚舞台,展示中国人工智能和机
2/12/2021 9:00:00 AM 新闻助手