折腾半天，我终于找到最懂中文的 AI 音频产品

最近我注意到一个趋势：各大短视频平台上，AI 生成的内容慢慢多了起来，而且其中有很多创意不错的内容，点赞和评论数据都很好。用 AI 来去制作一些之前没办法实现，或者实现成本很高的内容，我感觉这里面是有机会的。上个月，我曾经做过一个 Demo，思路是利用最新的 AI 工具，通过视频的方式来重新演绎中国历史上那些经典老故事，比如女娲补天、牛郎织女、岳飞抗金、花木兰替父从军、狸猫换太子、穆桂英挂帅、梁山伯与祝英台。

最近我注意到一个趋势：各大短视频平台上，AI 生成的内容慢慢多了起来，而且其中有很多创意不错的内容，点赞和评论数据都很好。用 AI 来去制作一些之前没办法实现，或者实现成本很高的内容，我感觉这里面是有机会的。

上个月，我曾经做过一个 Demo，思路是利用最新的 AI 工具，通过视频的方式来重新演绎中国历史上那些经典老故事，比如女娲补天、牛郎织女、岳飞抗金、花木兰替父从军、狸猫换太子、穆桂英挂帅、梁山伯与祝英台。

今年，AI 在多模态方面取得了十足的进展。我判断做这事的时机到了。视频不难做，目前行业内有不少的视频模型，生成的效果基本能够实现我刚刚提到的构想。但视频画面只是一部分，完整的视频还包括贴切的配音。

那次和团队熬夜做完视频后，我发现在国内外比较难找到好的 AI 音频类产品。

ElevenLabs 是全球知名的 AI 音频创业公司，但测试后，我们发现它在中文方面的表现实在难以令人满意，它对中文语义的理解比较弱，而且在很多字句上，机器味比较明显。折腾半天，结果很让人失望。

昨天，我和团队无意间发现了一个国产宝藏产品，MiniMax 语音。下面是链接：https://www.minimaxi.com/audio

说起来有点惭愧，MiniMax 的视频生成和通用 Agent 我一直在用，但音频生成产品还真没怎么注意过。六月时，MiniMax 发布了新一代语音大模型 Speech-02，最大的亮点就是语音合成效果接近真人，而且还能还原停顿、重音强调等表达细节。

这个模型曾经拿下 Artificial Arena 和 Huggingface 的榜单第一，语音相似度（SIM）在各种语言中表现都不错，尤其是在中文、粤语、日语这些亚洲语言上，准确率和表现直接把 ElevenLabs 甩开了一大截。

折腾半天，我终于找到最懂中文的 AI 音频产品

今天，我想继续来完善 AI 视频案例。用 MiniMax语音的音频能力，给我的花木兰视频，配上合适的音频。

《木兰辞》大家肯定耳熟能详，现在我儿子都倒背如流。这首诗确实写得好，很容易让人记住。但让 AI 来朗诵并没那么简单。因为木兰辞全诗中，不同部分表达的情绪是不一样的。

比如开头几句，主要是写木兰在家织布，听到征兵的消息后，内心焦急、忧愁、思虑父亲年老，决心代父从军。如果朗读的话，应该表现出来花木兰的忧愁和勇气。

紧接着是从军准备，描写木兰买马、备鞍、辞别家人。这一段既有出征的决绝，也带着告别亲人的柔情。情感比较复杂，需要表达出她的眷恋。

再后面是沙场征战，这里写木兰在军队中的艰苦、跋涉、奋战....总之，不同的内容，需要的情感是不一样的，如果用一个调读下来，那自然很假。

我们团队用 MiniMax 语音，仅花了两个小时时间，完美生成了自己中意的音频。先给大家听听效果。

你应该能感觉出来，我按照自己对这首诗的理解，让 AI 来演绎对应的情感。该眷恋的时候突出眷恋，该果敢的时候则突出果敢。至此，我终于找到一款好用的 AI 音频产品了。

折腾半天，我终于找到最懂中文的 AI 音频产品

接下来讲讲我是怎么做的。

整体来说，分三步。

第一步是音色设计。音色，其实就是声音给人的第一感觉，是男是女，是年轻还是成熟，是清亮还是低沉，每个人说话都有自己的底色。

第二步再把内容拆分成小段，然后针对每一段去微调音色和情绪，让表达更贴近内容本身。

最后一步就简单了，我们用工具把所有的音频片段拼在一起，形成一条完整的语音。

进入 MiniMax 语音主页（直接搜索 MiniMax，点击语音大模型也可以直接进入），点击左侧的“音色设计”菜单，可以通过提示词来设计自己期望的音色。

如果不知道提示词怎么写，那也可以直接选择提示词输入框下方的预定义角色，官方已经预置了一些提示词模板，我们可以在此基础上优化。

折腾半天，我终于找到最懂中文的 AI 音频产品

点击音色生成按钮后，系统会直接给出三个备选的音色。哪个更贴近自己的预期，选哪个就好。

折腾半天，我终于找到最懂中文的 AI 音频产品

因为我的目标是给《木兰辞》配音，所以在进行音色设计时，我输入了以下提示词：

女声，坚定而柔和，坚毅中带温柔；语气自然、有力量，充满忠诚与家国情怀；适合古代英勇女性角色；带有轻微古风韵味，但不过度夸张；表达清晰，情感丰富，可传达隐忍、果断与柔情交织的情绪。

折腾半天，我终于找到最懂中文的 AI 音频产品

最终生成的音色我们可以在音色库中找到：

折腾半天，我终于找到最懂中文的 AI 音频产品

其实到这一步，音色设计就已经完成了。接下来，就要进入到最最重要的第二步了。不过在正式介绍音频制作过程前，我先分享几个我认为 MiniMax 语音很贴心的设计细节。

第一，MiniMax 语音支持对句子之间的停顿时间进行精确控制。以前我用其他 AI 工具生成音频，经常遇到 AI 不会合理分配停顿位置和时长，听起来总觉得不自然。这事其实挺麻烦，过去我们只能靠手动剪辑去补救。

而 MiniMax 语音考虑到了这一点，如果我们需要在哪句话后面停顿，只要插入一个指令就行。举个例子，比如我想在某个词后停顿 0.8 秒，直接插入 '<#0.8#>' 指令。非常简单。

第二，在生成过程中，它支持对音色效果和情绪进行细微的调节。这一点对我而言，太有用了。要不然，想让 AI 通过一个音色来诠释不同情感的内容，挺难。

下面进入音频制作具体过程。我对《木兰辞》进行了结构和情绪上的拆分。

全词大致可以分为七个部分：开头是平静的叙述，随后是看到征兵时的忧伤，决定替父从军时的果断，出征准备时的温情，沙场征战时的激烈与英勇，凯旋归来后的释然与平静，最后是与家人团聚时的温馨和自豪。

每一部分的情绪和表达方式都各不相同，因此我在制作时也会针对不同情感进行分段处理。

先来看第一部分的内容：唧唧复唧唧，木兰当户织。不闻机杼声，唯闻女叹息。

这两句话主要是对花木兰日常状态的平静描写，情绪相对平稳。因此在音频生成时，我没有对输出情绪做过多调整。但为了让语音听起来更自然，我在两句话之间特意插入了 0.4 秒的停顿（'<#0.4#>'），让表达更有层次感。

折腾半天，我终于找到最懂中文的 AI 音频产品

与此同时，我还在右侧的调试台，单独调整了音色效果。你看下方界面，有点像美颜软件调整一张照片的曝光、鲜明度、亮度等细节，我可以调整声音效果，让它更低沉，或者更有力量感。

折腾半天，我终于找到最懂中文的 AI 音频产品

下面是 MiniMax 语音生成的效果：

折腾半天，我终于找到最懂中文的 AI 音频产品

作为对比，我用 ElevenLabs 也做了一次测试。你一听就能知道差距。

ElevenLabs 好像很多汉字不认识，遇到点生僻字时就乱了，比如第一句机杼声的杼字，它就念错了。而且它整体的表达状态不像是纯正的中文表达，中间总是隔了怪怪的一层，说不上来哪里不对劲。

折腾半天，我终于找到最懂中文的 AI 音频产品

现在来看，中文音频的生成，还得是 MiniMax 语音这种更懂本土文化的产品做得更好。

我继续演示下第二部分的音频生成过程。第二部分的诗文内容是：问女何所思，问女何所忆。女亦无所思，女亦无所忆。昨夜见军帖，可汗大点兵，军书十二卷，卷卷有爷名。

这一段主要描述花木兰看到征兵告示时的无奈。没办法，家里父亲老了，木兰又没大哥......她在酝酿一个重要的人生决定。生成这部分内容的音频时，我把输出情绪调整为“难过”，并适当提升了音调。

折腾半天，我终于找到最懂中文的 AI 音频产品

同时，我还对音色效果进行了相应调整，让声音更好地传达出花木兰当时的心境。当然，这个心境也是我的个人解读。

做这个音频的过程，还挺有意思，依稀想起小学还是初中时，摇头晃脑背诵诗文的场景。那时候哪能理解到花木兰作为一个中年人的无奈和勇敢啊。

折腾半天，我终于找到最懂中文的 AI 音频产品

最终生成的音频效果如下：

折腾半天，我终于找到最懂中文的 AI 音频产品

后续的各个部分制作过程大致相同，我就不一一介绍了。主要逻辑就是根据内容，调整音色效果、输出情绪和停顿位置。该轻松的时候语气要轻松，该凝重的时候要凝重。

MiniMax 语音在产品层面已经做了非常周全的封装，没什么上手难度，只要有耐心，做出一个 80 分的音频其实不难。

第三步，把刚刚所有分段音频合并，就能得到完整的音频。

折腾半天，我终于找到最懂中文的 AI 音频产品

这次尝试，我自己还是挺满意的。像花木兰这样的经典故事，过去要一群人合作、花不少精力才能做出来，现在小团队，甚至一个人，也能慢慢还原脑海里的那些画面和情绪。

现在注册 MiniMax 语音官方会赠送 1 万积分。这些积分大约能生成 12 分钟的音频，做一整首《木兰辞》完全没问题，想尝鲜的同学可以试试。

不过，大家肯定也关心，长期使用的话，他们的会员套餐划不划算。我横向对比了一圈市面上的音频产品，MiniMax 语音的套餐选择绝对是最灵活，性价比最高的，没有之一。

折腾半天，我终于找到最懂中文的 AI 音频产品

另外，MiniMax 语音的计费方式也很人性化，想用多少就买多少声贝（积分），积分有效期还比月度员长得多。比如最低的 10 万声贝套餐，也就 20 块，一顿外卖的钱，随用随充，非常方便。

反观 ElevenLabs，得 11 美元，而且只有一个月有效期。性价比高下立判，连老外都说 MiniMax 更良心。

折腾半天，我终于找到最懂中文的 AI 音频产品

AI 工具进步得很快，很多原本以为麻烦的事情，现在已经简单到只需要花点时间摸索就能搞定。

不少好点子，搁在以前都是想想就算了，现在真有机会试一试。也许你喜欢历史，喜欢体育，喜欢地理，喜欢游戏，总之，你肯定有自己喜欢和擅长的事情，也许可以结合自己的特点，然后借助 AI 工具，创作一些好的内容。

折腾半天，我终于找到最懂中文的 AI 音频产品

相关资讯

低价Claude3.7极速使用，白票Deepseek满血R1

国际研究：AI 助手常歪曲新闻内容，45% 回答存重大问题

5090跑《黑神话》飙到200+帧，英伟达DLSS也用上Transformer了