月之暗面开源音频模型Kimi-Audio，从「语音转文字」到「读心对话」，让AI听懂人类 “弦外之音”！

作者：AIGC Studio 2025-05-13 09:21

近期，Kimi在语音交互领域发布了Kimi-Audio模型，这是一个开源音频基础模型，在音频理解、生成和对话方面表现出色。 AI让机器不仅 “听到” 声音，更能 “听懂” 语言背后的情感、意图和语境。 Kimi-Audio 的核心突破，在于构建了一个全流程端到端的实时语音对话系统。

近期，Kimi在语音交互领域发布了Kimi-Audio模型，这是一个开源音频基础模型，在音频理解、生成和对话方面表现出色。

AI让机器不仅 “听到” 声音，更能 “听懂” 语言背后的情感、意图和语境。Kimi-Audio 的核心突破，在于构建了一个全流程端到端的实时语音对话系统。能够在一个统一的框架内处理各种音频处理任务。主要功能包括：

通用功能：处理各种任务，如自动语音识别 (ASR)、音频问答 (AQA)、自动音频字幕 (AAC)、语音情感识别 (SER)、声音事件/场景分类 (SEC/ASC) 和端到端语音对话。
最先进的性能：在众多音频基准测试中取得 SOTA 结果（参见评估和技术报告）。
大规模预训练：对超过 1300 万小时的不同音频数据（语音、音乐、声音）和文本数据进行预训练，实现强大的音频推理和语言理解。
新颖的架构：采用混合音频输入（连续声学向量+离散语义标记）和具有并行头的 LLM 核心来生成文本和音频标记。
高效推理：采用基于流匹配的分块流式去标记器，实现低延迟音频生成。
开源：发布预训练和指令微调的代码和模型检查点，并发布全面的评估工具包以促进社区研究和开发。

论文介绍

Kimi-Audio是一个在音频理解、生成和对话方面表现卓越的开源音频基础模型。论文介绍了 Kimi-Audio 的构建实践，包括模型架构、数据整理、训练方案、推理部署和评估。

具体而言，我们利用 12.5Hz 音频分词器，设计了一种基于 LLM 的新型架构，以连续特征作为输入，以离散分词作为输出，并开发了一个基于流匹配的分块式流式去分词器。作者整理了一个包含超过 1300 万小时音频数据的预训练数据集，涵盖语音、声音和音乐等多种模态，并构建了用于构建高质量且多样化的训练后数据的流水线。Kimi-Audio 基于预训练的 LLM 进行初始化，并通过多个精心设计的任务，在音频和文本数据上进行持续预训练，然后进行微调以支持各种音频相关任务。

广泛的评估表明，Kimi-Audio 在一系列音频基准测试中均达到了最佳性能，包括语音识别、音频理解、音频问答和语音对话。

架构概述

Kimi-Audio 由三个主要组件组成：

音频标记器：将输入音频转换为：使用矢量量化的离散语义标记（12.5Hz）。来自 Whisper 编码器的连续声学特征（下采样至 12.5Hz）。
音频 LLM：基于转换器的模型（由预训练的文本 LLM（如 Qwen 2.5 7B）初始化），具有处理多模态输入的共享层，然后是并行头，用于自回归生成文本标记和离散音频语义标记。
音频解析器：使用流匹配模型和声码器（BigVGAN）将预测的离散语义音频标记转换回高保真波形，支持分块流传输，并采用前瞻机制实现低延迟。