国产MiniMax语音模型横扫国际舞台，迈入个性化语音新时代

作者：AI在线 2025-05-16 10:01

在人工智能领域的快速发展中，国产大模型的进步速度让人惊叹。早在今年初，DeepSeek-R1以超低成本获得了超越 OpenAI 的表现，令人重新审视国外大模型的垄断地位。如今，MiniMax 再次带来了重磅消息:其全新一代文本转语音（TTS）模型 “Speech-02” 在国际权威的语音评测榜单 Artificial Analysis 上强势登顶，击败了 OpenAI 和 ElevenLabs 等行业巨头。

Speech-02的出色表现体现在多个关键指标上，例如字错率（WER）和说话人相似度(SIM)，均取得了新的最佳结果(SOTA)，令国外网友感到震惊，纷纷称赞 MiniMax 为音频领域的破局者。更令人惊喜的是，Speech-02的成本仅为 ElevenLabs 竞争产品的四分之一，展现了其高性价比的优势。

那么，Speech-02为何能够取得如此骄人的成绩呢?背后有两项关键技术创新。一方面，Speech-02实现了真正的零样本（zero-shot）语音克隆。这意味着只需给定一段参考语音，无需额外文本，模型就能迅速生成与目标语音高度相似的音频。这项技术显著节省了时间和资源，以往的合成方法通常需要大量样本数据。

另一方面，MiniMax 采用了全新的 Flow-VAE 架构，这种架构提升了语音生成过程中的信息表征能力，进而改善了合成音频的质量和相似度。通过引入一个可学习的 speaker 编码器，Speech-02能专注于说话者独特的发音特点，无论是音色、语调还是节奏，均能精准再现，避免了传统合成语音的生硬感。

此外，MiniMax 还引入了 T2V 框架，将开放式自然语言描述与结构化标签信息相结合，进一步提升了语音合成的灵活性和可控性。这意味着，用户不仅可以提供参考音频，还可以通过简单的描述来生成所需音色的语音，从而极大地增强了系统的多功能性。

Speech-02的成功再次印证了国产大模型在语音合成领域的强大实力，并向世界展示了中国在人工智能技术上的快速崛起。

技术文档：https://minimax-ai.github.io/tts_tech_report/

MiniMax Speech-02碾压OpenAI与ElevenLabs，登顶全球TTS榜首

MiniMax Audio推出的Speech-02系列语音模型席卷全球，强势登顶Artificial Analysis Speech Arena和Hugging Face TTS Arena两大权威榜单，力压ElevenLabs、OpenAI等国际顶尖竞争对手。这款模型以超高语音逼真度和多语言支持惊艳业界，成为AI语音技术的全新标杆。 AIbase综合最新动态，深入解析Speech-02的技术亮点及其对行业的深远影响。

5/16/2025 3:00:55 PM AI在线

实测最新AI语音模型：让特朗普、丁真说绕口令堪称以假乱真，但断句整得稀碎

机器之能报道编辑：杨文这款新AI语音模型Fish Speech，模仿音色一绝。近来，AI 语音赛道突然热闹起来。一个多月前，一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。火到什么程度呢？仅三天时间就在 GitHub 狂揽 9.2k Star 量，还一度登顶 GitHub Trending 榜首并连续霸榜。没多久，字节也推出一款类似项目 Seed-TTS，喊出的口号同样是「生成自然真实的语音」。这几天，这一赛道又闯进新玩家 ——Fish Speech。据悉，该模型经过 15 万小时的数据训练，已熟

7/4/2024 3:40:00 PM 机器之能

国家超算互联网平台上线MiniMax国产AI大模型，助力AI开源生态与智能交互新发展

中国人工智能产业正在加速迈向全球舞台。 AIbase从社交媒体获悉，国家超算互联网平台已正式上线MiniMax稀宇科技的国产AI大模型，包括MiniMax-Text-01和MiniMax-VL-01，并入驻超算互联网AI开源社区。与此同时，MiniMax的ChatBot对话服务也同步接入平台，为用户提供高效的智能交互体验。

4/16/2025 2:01:15 PM AI在线

国产MiniMax语音模型横扫国际舞台，迈入个性化语音新时代

相关资讯

MiniMax Speech-02碾压OpenAI与ElevenLabs，登顶全球TTS榜首

实测最新AI语音模型：让特朗普、丁真说绕口令堪称以假乱真，但断句整得稀碎

国家超算互联网平台上线MiniMax国产AI大模型，助力AI开源生态与智能交互新发展