最近我注意到一个趋势:各大短视频平台上,AI 生成的内容慢慢多了起来,而且其中有很多创意不错的内容,点赞和评论数据都很好。用 AI 来去制作一些之前没办法实现,或者实现成本很高的内容,我感觉这里面是有机会的。
上个月,我曾经做过一个 Demo,思路是利用最新的 AI 工具,通过视频的方式来重新演绎中国历史上那些经典老故事,比如女娲补天、牛郎织女、岳飞抗金、花木兰替父从军、狸猫换太子、穆桂英挂帅、梁山伯与祝英台。
今年,AI 在多模态方面取得了十足的进展。我判断做这事的时机到了。视频不难做,目前行业内有不少的视频模型,生成的效果基本能够实现我刚刚提到的构想。但视频画面只是一部分,完整的视频还包括贴切的配音。
那次和团队熬夜做完视频后,我发现在国内外比较难找到好的 AI 音频类产品。
ElevenLabs 是全球知名的 AI 音频创业公司,但测试后,我们发现它在中文方面的表现实在难以令人满意,它对中文语义的理解比较弱,而且在很多字句上,机器味比较明显。折腾半天,结果很让人失望。
昨天,我和团队无意间发现了一个国产宝藏产品,MiniMax 语音。下面是链接:https://www.minimaxi.com/audio
说起来有点惭愧,MiniMax 的视频生成和通用 Agent 我一直在用,但音频生成产品还真没怎么注意过。六月时,MiniMax 发布了新一代语音大模型 Speech-02,最大的亮点就是语音合成效果接近真人,而且还能还原停顿、重音强调等表达细节。
这个模型曾经拿下 Artificial Arena 和 Huggingface 的榜单第一,语音相似度(SIM)在各种语言中表现都不错,尤其是在中文、粤语、日语这些亚洲语言上,准确率和表现直接把 ElevenLabs 甩开了一大截。
今天,我想继续来完善 AI 视频案例。用 MiniMax语音的音频能力,给我的花木兰视频,配上合适的音频。
《木兰辞》大家肯定耳熟能详,现在我儿子都倒背如流。这首诗确实写得好,很容易让人记住。但让 AI 来朗诵并没那么简单。因为木兰辞全诗中,不同部分表达的情绪是不一样的。
比如开头几句,主要是写木兰在家织布,听到征兵的消息后,内心焦急、忧愁、思虑父亲年老,决心代父从军。如果朗读的话,应该表现出来花木兰的忧愁和勇气。
紧接着是从军准备,描写木兰买马、备鞍、辞别家人。这一段既有出征的决绝,也带着告别亲人的柔情。情感比较复杂,需要表达出她的眷恋。
再后面是沙场征战,这里写木兰在军队中的艰苦、跋涉、奋战....总之,不同的内容,需要的情感是不一样的,如果用一个调读下来,那自然很假。
我们团队用 MiniMax 语音,仅花了两个小时时间,完美生成了自己中意的音频。先给大家听听效果。
你应该能感觉出来,我按照自己对这首诗的理解,让 AI 来演绎对应的情感。该眷恋的时候突出眷恋,该果敢的时候则突出果敢。至此,我终于找到一款好用的 AI 音频产品了。
接下来讲讲我是怎么做的。
整体来说,分三步。
第一步是音色设计。音色,其实就是声音给人的第一感觉,是男是女,是年轻还是成熟,是清亮还是低沉,每个人说话都有自己的底色。
第二步再把内容拆分成小段,然后针对每一段去微调音色和情绪,让表达更贴近内容本身。
最后一步就简单了,我们用工具把所有的音频片段拼在一起,形成一条完整的语音。
进入 MiniMax 语音主页(直接搜索 MiniMax,点击语音大模型也可以直接进入),点击左侧的“音色设计”菜单,可以通过提示词来设计自己期望的音色。
如果不知道提示词怎么写,那也可以直接选择提示词输入框下方的预定义角色,官方已经预置了一些提示词模板,我们可以在此基础上优化。
点击音色生成按钮后,系统会直接给出三个备选的音色。哪个更贴近自己的预期,选哪个就好。
因为我的目标是给《木兰辞》配音,所以在进行音色设计时,我输入了以下提示词:
女声,坚定而柔和,坚毅中带温柔;语气自然、有力量,充满忠诚与家国情怀;适合古代英勇女性角色;带有轻微古风韵味,但不过度夸张;表达清晰,情感丰富,可传达隐忍、果断与柔情交织的情绪。
最终生成的音色我们可以在音色库中找到:
其实到这一步,音色设计就已经完成了。接下来,就要进入到最最重要的第二步了。不过在正式介绍音频制作过程前,我先分享几个我认为 MiniMax 语音很贴心的设计细节。
第一,MiniMax 语音支持对句子之间的停顿时间进行精确控制。以前我用其他 AI 工具生成音频,经常遇到 AI 不会合理分配停顿位置和时长,听起来总觉得不自然。这事其实挺麻烦,过去我们只能靠手动剪辑去补救。
而 MiniMax 语音考虑到了这一点,如果我们需要在哪句话后面停顿,只要插入一个指令就行。举个例子,比如我想在某个词后停顿 0.8 秒,直接插入 '<#0.8#>' 指令。非常简单。
第二,在生成过程中,它支持对音色效果和情绪进行细微的调节。这一点对我而言,太有用了。要不然,想让 AI 通过一个音色来诠释不同情感的内容,挺难。
下面进入音频制作具体过程。我对《木兰辞》进行了结构和情绪上的拆分。
全词大致可以分为七个部分:开头是平静的叙述,随后是看到征兵时的忧伤,决定替父从军时的果断,出征准备时的温情,沙场征战时的激烈与英勇,凯旋归来后的释然与平静,最后是与家人团聚时的温馨和自豪。
每一部分的情绪和表达方式都各不相同,因此我在制作时也会针对不同情感进行分段处理。
先来看第一部分的内容:唧唧复唧唧,木兰当户织。不闻机杼声,唯闻女叹息。
这两句话主要是对花木兰日常状态的平静描写,情绪相对平稳。因此在音频生成时,我没有对输出情绪做过多调整。但为了让语音听起来更自然,我在两句话之间特意插入了 0.4 秒的停顿('<#0.4#>'),让表达更有层次感。
与此同时,我还在右侧的调试台,单独调整了音色效果。你看下方界面,有点像美颜软件调整一张照片的曝光、鲜明度、亮度等细节,我可以调整声音效果,让它更低沉,或者更有力量感。
下面是 MiniMax 语音生成的效果:
作为对比,我用 ElevenLabs 也做了一次测试。你一听就能知道差距。
ElevenLabs 好像很多汉字不认识,遇到点生僻字时就乱了,比如第一句机杼声的杼字,它就念错了。而且它整体的表达状态不像是纯正的中文表达,中间总是隔了怪怪的一层,说不上来哪里不对劲。
现在来看,中文音频的生成,还得是 MiniMax 语音这种更懂本土文化的产品做得更好。
我继续演示下第二部分的音频生成过程。第二部分的诗文内容是:问女何所思,问女何所忆。女亦无所思,女亦无所忆。昨夜见军帖,可汗大点兵,军书十二卷,卷卷有爷名。
这一段主要描述花木兰看到征兵告示时的无奈。没办法,家里父亲老了,木兰又没大哥......她在酝酿一个重要的人生决定。生成这部分内容的音频时,我把输出情绪调整为“难过”,并适当提升了音调。
同时,我还对音色效果进行了相应调整,让声音更好地传达出花木兰当时的心境。当然,这个心境也是我的个人解读。
做这个音频的过程,还挺有意思,依稀想起小学还是初中时,摇头晃脑背诵诗文的场景。那时候哪能理解到花木兰作为一个中年人的无奈和勇敢啊。
最终生成的音频效果如下:
后续的各个部分制作过程大致相同,我就不一一介绍了。主要逻辑就是根据内容,调整音色效果、输出情绪和停顿位置。该轻松的时候语气要轻松,该凝重的时候要凝重。
MiniMax 语音在产品层面已经做了非常周全的封装,没什么上手难度,只要有耐心,做出一个 80 分的音频其实不难。
第三步,把刚刚所有分段音频合并,就能得到完整的音频。
这次尝试,我自己还是挺满意的。像花木兰这样的经典故事,过去要一群人合作、花不少精力才能做出来,现在小团队,甚至一个人,也能慢慢还原脑海里的那些画面和情绪。
现在注册 MiniMax 语音官方会赠送 1 万积分。这些积分大约能生成 12 分钟的音频,做一整首《木兰辞》完全没问题,想尝鲜的同学可以试试。
不过,大家肯定也关心,长期使用的话,他们的会员套餐划不划算。我横向对比了一圈市面上的音频产品,MiniMax 语音的套餐选择绝对是最灵活,性价比最高的,没有之一。
另外,MiniMax 语音的计费方式也很人性化,想用多少就买多少声贝(积分),积分有效期还比月度员长得多。比如最低的 10 万声贝套餐,也就 20 块,一顿外卖的钱,随用随充,非常方便。
反观 ElevenLabs,得 11 美元,而且只有一个月有效期。性价比高下立判,连老外都说 MiniMax 更良心。
AI 工具进步得很快,很多原本以为麻烦的事情,现在已经简单到只需要花点时间摸索就能搞定。
不少好点子,搁在以前都是想想就算了,现在真有机会试一试。也许你喜欢历史,喜欢体育,喜欢地理,喜欢游戏,总之,你肯定有自己喜欢和擅长的事情,也许可以结合自己的特点,然后借助 AI 工具,创作一些好的内容。