Kimi-Audio开源横扫全场景，1300万+小时数据炼成语音世界“大一统”

昨天，kim发布了一款“万能型”音频大模型— Kimi-Audio，支持语音识别（ASR）、音频问答（AQA）、音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）、文本到语音（TTS）、语音转换（VC）和端到端语音对话。换句话说，它可以听、可以说、可以理解、可以对话，支持实时语音会话，多轮交流。图片一套架构，横扫音频全场景，开源可用。

昨天，kim发布了一款“万能型”音频大模型— Kimi-Audio，支持语音识别（ASR）、音频问答（AQA）、音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）、文本到语音（TTS）、语音转换（VC）和端到端语音对话。

换句话说，它可以听、可以说、可以理解、可以对话，支持实时语音会话，多轮交流。

图片

一套架构，横扫音频全场景，开源可用。

从学术和工业角度，我认为有两点贡献：

模型架构和预训练规模空前——13万小时级别的音频数据+大语言模型初始化，音频和文本信号双线处理，架构极其“融合”。
全链路开放+评测工具包——所有代码、模型参数、评测工具全部开源，直接对社区开放，标准化评测彻底解决“无法复现”的老大难问题。

1.模型架构：语音世界的“大一统”

图注：Kimi-Audio技术架构

Kimi-Audio的核心架构其实就三大块：音频分词器（Tokenizer）、音频大模型（Audio LLM）以及音频反分词器（Detokenizer）。就像把一句话切成一个个字，音频分词器把声音变成一串“音频词”。Kimi用的是12.5Hz采样率（就是每秒拆12.5个“词”），既有“离散语义词”（理解内容），又有“连续声学特征”（保留音色、情感等细节）。说白了，就是既能知道你说了啥，还能尽量还原你怎么说的。

音频大模型的核心是一个“多模态大脑”，一边能处理“音频词”，一边能处理文本词；底层结构和流行的大模型（transformer那一套）一样，但上面分两头：一头专门“写字”输出文本，一头专门“说话”输出音频。这个模型底子其实是个现成的文本大模型（Qwen2.5 7B），直接“嫁接”了音频输入输出的能力，兼容性强，省了很多训练资源。

音频反分词器就是把模型输出的“音频词”重新拼成声音。“分块+流式”方案，就是把长音频切成一小块一小块，每块单独快速合成，然后拼起来，减少延迟，体验更丝滑。还做了“look-ahead”机制，就是每块合成时偷偷看一点后面的内容，让拼接更自然，不断句。

2.数据管线：1300万+小时音频，流水线级别的数据清洗

图注：数据处理流程图

Kimi-Audio这波，采用的预训练音频数据高达1300万+小时，涵盖语音、音乐、环境声，各种应用场景全覆盖。

那这么多音频怎么处理？报告中说，Kimi团队搞了个自动化大流水线，从原始音频到高质量“带标注”的数据，大致分几步：

语音增强：先用AI降噪，把环境杂音、回声处理掉。但为了不丢失真实世界的多样性，训练时一半用原声，一半用降噪后的。
说话人分割（Diarization）：用PyAnnote工具给每段音频“数人头”，谁说了哪段切清楚。还专门写了合并/细分/优化的后处理流程，确保每个说话段准确且长度合理。
转写+打标：用Whisper大模型自动识别英文，用FunASR的Paraformer-Zh识别中文，还根据时间戳智能加标点，保证后续训练能用。

据说，除了公开数据，还加了自家ASR数据，音频理解/问答数据。

图片

3.训练方式：任务多、策略细，兼容音频和文本智能

Kimi-Audio开源横扫全场景，1300万+小时数据炼成语音世界“大一统”

Kimi-Audio的训练分两步：万能预训练→精细指令微调。

万能预训练采用音频+文本混合学，一边学“纯文本”（用MoonLight数据），一边学“纯音频”，再加上“音频对文本”“文本对音频”的互转任务，最后还有“音频-文本交错混合”的难度提升；

精细指令微调中任务全靠“自然语言指令”分流，不用人为切换，直接靠“你说什么任务，我就做什么”，且每种任务都生成多种随机指令，训练时反复调换，模型抗干扰强。

4.各项指标“遥遥领先”

Kimi-Audio与以往音频语言模型在各类基准测试上的表现对比

语音识别方面，LibriSpeech英文测试集，Kimi-Audio的错误率（WER）只有1.28%，比Qwen2.5-Omni的2.37%还低一截。AISHELL-1中文：WER 0.60%，比上一代模型低一半。此外多场景、多语种、多环境，Kimi-Audio基本都是榜首。

音频理解方面，Kimi-Audio在MMAU、MELD、VocalSound、TUT2017等公开集上，分数都是最高。比如MMAU的“声音理解”类，Kimi-Audio得分73.27，超过其它竞品。

音频对话&音频聊天方面，VoiceBench的多项任务，Kimi-Audio都是第一，平均得分76.93。

语音对话表达方面，采用人类主观打分，在速度控制、情感表达、同理心等多个维度，Kimi-Audio都能做到接近GPT-4o的效果，平均得分3.9（满分5分）。

Kimi-Audio开源横扫全场景，1300万+小时数据炼成语音世界“大一统”

Kimi-Audio中用于实时语音到语音对话的生产部署工作流程

5.one more thing

官方也坦诚地提到，当前Kimi-Audio音频大模型还存在三大挑战：

“转录”信息有限，描述性理解还需加强，现在模型对音频的理解，大多还停留在“你说了什么”（转写），但很多声音里“怎么说、什么情绪、什么场景”更重要。
音频“语义+细节”融合的表示还不够完美：纯语义Token容易丢细节，纯声学Token又缺理解，如何把“内容”和“感觉”都融在一套表达里，是下一个技术突破点。
无法摆脱ASR/TTS依赖：目前大部分音频大模型，底层还是靠ASR（语音识别）和TTS（语音合成）撑着，实际上就是在拼装已有的技术。

论文地址：github.com/MoonshotAI/Kimi-Audio/blob/master/assets/kimia_report.pdf

模型地址：huggingface.co/moonshotai/Kimi-Audio-7B-Instruct

repo地址：github.com/MoonshotAI/Kimi-Audio

Kimi-Audio开源横扫全场景，1300万+小时数据炼成语音世界“大一统”

1.模型架构：语音世界的“大一统”

2.数据管线：1300万+小时音频，流水线级别的数据清洗

3.训练方式：任务多、策略细，兼容音频和文本智能

4.各项指标“遥遥领先”

5.one more thing

相关资讯

国外权威认证！DeepSeek超150万模型，成最受欢迎开源大模型

开源的风吹到视频生成：阿里开源登顶VBench的万相大模型，一手实测来了！

首个个性化对齐大模型问世！可精准识别用户内在动机和偏好，还有百万用户画像开源数据集 | 蚂蚁&人大