AI在线 AI在线

月之暗面开源音频模型Kimi-Audio,从「语音转文字」到「读心对话」,让AI听懂人类 “弦外之音”!

近期,Kimi在语音交互领域发布了Kimi-Audio模型,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。 AI让机器不仅 “听到” 声音,更能 “听懂” 语言背后的情感、意图和语境。 Kimi-Audio 的核心突破,在于构建了一个全流程端到端的实时语音对话系统。

近期,Kimi在语音交互领域发布了Kimi-Audio模型,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。

图片

AI让机器不仅 “听到” 声音,更能 “听懂” 语言背后的情感、意图和语境。Kimi-Audio 的核心突破,在于构建了一个全流程端到端的实时语音对话系统。能够在一个统一的框架内处理各种音频处理任务。主要功能包括:

  • 通用功能:处理各种任务,如自动语音识别 (ASR)、音频问答 (AQA)、自动音频字幕 (AAC)、语音情感识别 (SER)、声音事件/场景分类 (SEC/ASC) 和端到端语音对话。
  • 最先进的性能:在众多音频基准测试中取得 SOTA 结果(参见评估和技术报告)。
  • 大规模预训练:对超过 1300 万小时的不同音频数据(语音、音乐、声音)和文本数据进行预训练,实现强大的音频推理和语言理解。
  • 新颖的架构:采用混合音频输入(连续声学向量+离散语义标记)和具有并行头的 LLM 核心来生成文本和音频标记。
  • 高效推理:采用基于流匹配的分块流式去标记器,实现低延迟音频生成。
  • 开源:发布预训练和指令微调的代码和模型检查点,并发布全面的评估工具包以促进社区研究和开发。

相关链接

  • 论文:
  • 模型:https://huggingface.co/moonshotai/Kimi-Audio-7B
  • 代码:https://github.com/MoonshotAI/Kimi-Audio

论文介绍

图片Kimi-Audio是一个在音频理解、生成和对话方面表现卓越的开源音频基础模型。论文介绍了 Kimi-Audio 的构建实践,包括模型架构、数据整理、训练方案、推理部署和评估。

具体而言,我们利用 12.5Hz 音频分词器,设计了一种基于 LLM 的新型架构,以连续特征作为输入,以离散分词作为输出,并开发了一个基于流匹配的分块式流式去分词器。作者整理了一个包含超过 1300 万小时音频数据的预训练数据集,涵盖语音、声音和音乐等多种模态,并构建了用于构建高质量且多样化的训练后数据的流水线。Kimi-Audio 基于预训练的 LLM 进行初始化,并通过多个精心设计的任务,在音频和文本数据上进行持续预训练,然后进行微调以支持各种音频相关任务。

广泛的评估表明,Kimi-Audio 在一系列音频基准测试中均达到了最佳性能,包括语音识别、音频理解、音频问答和语音对话。

架构概述

图片Kimi-Audio 由三个主要组件组成:

  • 音频标记器:将输入音频转换为:使用矢量量化的离散语义标记(12.5Hz)。来自 Whisper 编码器的连续声学特征(下采样至 12.5Hz)。
  • 音频 LLM:基于转换器的模型(由预训练的文本 LLM(如 Qwen 2.5 7B)初始化),具有处理多模态输入的共享层,然后是并行头,用于自回归生成文本标记和离散音频语义标记。
  • 音频解析器:使用流匹配模型和声码器(BigVGAN)将预测的离散语义音频标记转换回高保真波形,支持分块流传输,并采用前瞻机制实现低延迟。

评估

Kimi-Audio 在广泛的音频基准测试中实现了最先进的 (SOTA) 性能。

以下是整体表现:

Kimi-Audio 与之前的音频语言模型(包括 Qwen2-Audio、Baichuan Audio、Step-Audio 和 Qwen2.5-Omni)在各种基准测试中的表现。Kimi-Audio 与之前的音频语言模型(包括 Qwen2-Audio、Baichuan Audio、Step-Audio 和 Qwen2.5-Omni)在各种基准测试中的表现。

音频预训练数据的处理流程

音频预训练数据的处理流程

Kimi-Audio 中用于实时语音对话的客户端-服务器通信。

Kimi-Audio 中用于实时语音对话的客户端-服务器通信。Kimi-Audio 实时语音对话生产部署流程Kimi-Audio 实时语音对话生产部署流程

相关资讯

11B模型拿下开源视频生成新SOTA!仅用224张GPU训练,训练成本省10倍

224张GPU,训出开源视频生成新SOTA! Open-Sora 2.0正式发布。 11B参数规模,性能可直追HunyuanVideo和Step-Video(30B)。
3/13/2025 12:39:22 PM
量子位

多重可控插帧视频生成编辑,Adobe这个大一统模型做到了,效果惊艳

本文一作 Maham Tanveer 是 Simon Fraser University 的在读博士生,主要研究方向为艺术视觉生成和创作,此前在 ICCV 发表过艺术字体的生成工作。 师从 Hao (Richard) Zhang, IEEE Fellow, Distinguished Professor, 并担任 SIGGRAPH 2025 Paper Chair. 本文尾作 Nanxuan (Cherry)  Zhao 在 Adobe Research 担任 Research Scientist, 研究方向为多模态可控生成和编辑,有丰富的交叉方向研究经历(图形学 图像 人机交互),致力于开发可以让用户更高效进行设计创作的算法和工具。
2/3/2025 12:16:01 PM
机器之心

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

本文经AIGC Studio公众号授权转载,转载请联系出处。 在这个数字化飞速发展的时代,图像与视频合成技术正以前所未有的速度重塑着我们的生活,尤其在在线零售领域,一场关于购物体验的革命正在悄然上演。 想象一下,无需亲自试穿,仅凭一张照片或一段视频,就能精准预览任何心仪服装的上身效果——这听起来仿佛科幻电影中的场景,中山大学和新加坡国立大学提出的基于视觉的虚拟试穿(CatV2TON)技术正将其变为现实。
2/8/2025 10:30:00 AM
AIGC Studio
  • 1