AI在线 AI在线

Kimi-Audio开源横扫全场景,1300万+小时数据炼成语音世界“大一统”

作者:
2025-04-28 02:10
昨天,kim发布了一款“万能型”音频大模型— Kimi-Audio,支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。 换句话说,它可以听、可以说、可以理解、可以对话,支持实时语音会话,多轮交流。 图片一套架构,横扫音频全场景,开源可用。

昨天,kim发布了一款“万能型”音频大模型— Kimi-Audio,支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。

换句话说,它可以听、可以说、可以理解、可以对话,支持实时语音会话,多轮交流。

图片图片

一套架构,横扫音频全场景,开源可用。

从学术和工业角度,我认为有两点贡献:

  • 模型架构和预训练规模空前——13万小时级别的音频数据+大语言模型初始化,音频和文本信号双线处理,架构极其“融合”。
  • 全链路开放+评测工具包——所有代码、模型参数、评测工具全部开源,直接对社区开放,标准化评测彻底解决“无法复现”的老大难问题。

1.模型架构:语音世界的“大一统”

图注:Kimi-Audio技术架构图注:Kimi-Audio技术架构

Kimi-Audio的核心架构其实就三大块:音频分词器(Tokenizer)、音频大模型(Audio LLM)以及音频反分词器(Detokenizer)。就像把一句话切成一个个字,音频分词器把声音变成一串“音频词”。Kimi用的是12.5Hz采样率(就是每秒拆12.5个“词”),既有“离散语义词”(理解内容),又有“连续声学特征”(保留音色、情感等细节)。说白了,就是既能知道你说了啥,还能尽量还原你怎么说的。

音频大模型的核心是一个“多模态大脑”,一边能处理“音频词”,一边能处理文本词;底层结构和流行的大模型(transformer那一套)一样,但上面分两头:一头专门“写字”输出文本,一头专门“说话”输出音频。这个模型底子其实是个现成的文本大模型(Qwen2.5 7B),直接“嫁接”了音频输入输出的能力,兼容性强,省了很多训练资源。

音频反分词器就是把模型输出的“音频词”重新拼成声音。“分块+流式”方案,就是把长音频切成一小块一小块,每块单独快速合成,然后拼起来,减少延迟,体验更丝滑。还做了“look-ahead”机制,就是每块合成时偷偷看一点后面的内容,让拼接更自然,不断句。

2.数据管线:1300万+小时音频,流水线级别的数据清洗

图注:数据处理流程图图注:数据处理流程图

Kimi-Audio这波,采用的预训练音频数据高达1300万+小时,涵盖语音、音乐、环境声,各种应用场景全覆盖。

那这么多音频怎么处理?报告中说,Kimi团队搞了个自动化大流水线,从原始音频到高质量“带标注”的数据,大致分几步:

  • 语音增强:先用AI降噪,把环境杂音、回声处理掉。但为了不丢失真实世界的多样性,训练时一半用原声,一半用降噪后的。
  • 说话人分割(Diarization):用PyAnnote工具给每段音频“数人头”,谁说了哪段切清楚。还专门写了合并/细分/优化的后处理流程,确保每个说话段准确且长度合理。
  • 转写+打标:用Whisper大模型自动识别英文,用FunASR的Paraformer-Zh识别中文,还根据时间戳智能加标点,保证后续训练能用。

据说,除了公开数据,还加了自家ASR数据,音频理解/问答数据。

图片图片

3.训练方式:任务多、策略细,兼容音频和文本智能

Kimi-Audio开源横扫全场景,1300万+小时数据炼成语音世界“大一统”

Kimi-Audio的训练分两步:万能预训练→精细指令微调。

万能预训练采用音频+文本混合学,一边学“纯文本”(用MoonLight数据),一边学“纯音频”,再加上“音频对文本”“文本对音频”的互转任务,最后还有“音频-文本交错混合”的难度提升;

精细指令微调中任务全靠“自然语言指令”分流,不用人为切换,直接靠“你说什么任务,我就做什么”,且每种任务都生成多种随机指令,训练时反复调换,模型抗干扰强。

4.各项指标“遥遥领先”

Kimi-Audio与以往音频语言模型在各类基准测试上的表现对比Kimi-Audio与以往音频语言模型在各类基准测试上的表现对比

语音识别方面,LibriSpeech英文测试集,Kimi-Audio的错误率(WER)只有1.28%,比Qwen2.5-Omni的2.37%还低一截。AISHELL-1中文:WER 0.60%,比上一代模型低一半。此外多场景、多语种、多环境,Kimi-Audio基本都是榜首。

音频理解方面,Kimi-Audio在MMAU、MELD、VocalSound、TUT2017等公开集上,分数都是最高。比如MMAU的“声音理解”类,Kimi-Audio得分73.27,超过其它竞品。

音频对话&音频聊天方面,VoiceBench的多项任务,Kimi-Audio都是第一,平均得分76.93。

语音对话表达方面,采用人类主观打分,在速度控制、情感表达、同理心等多个维度,Kimi-Audio都能做到接近GPT-4o的效果,平均得分3.9(满分5分)。

Kimi-Audio开源横扫全场景,1300万+小时数据炼成语音世界“大一统”

Kimi-Audio中用于实时语音到语音对话的生产部署工作流程

5.one more thing

官方也坦诚地提到,当前Kimi-Audio音频大模型还存在三大挑战:

  • “转录”信息有限,描述性理解还需加强,现在模型对音频的理解,大多还停留在“你说了什么”(转写),但很多声音里“怎么说、什么情绪、什么场景”更重要。
  • 音频“语义+细节”融合的表示还不够完美:纯语义Token容易丢细节,纯声学Token又缺理解,如何把“内容”和“感觉”都融在一套表达里,是下一个技术突破点。
  • 无法摆脱ASR/TTS依赖:目前大部分音频大模型,底层还是靠ASR(语音识别)和TTS(语音合成)撑着,实际上就是在拼装已有的技术。

论文地址:github.com/MoonshotAI/Kimi-Audio/blob/master/assets/kimia_report.pdf

模型地址:huggingface.co/moonshotai/Kimi-Audio-7B-Instruct

repo地址:github.com/MoonshotAI/Kimi-Audio

相关标签:

相关资讯

国外权威认证!DeepSeek超150万模型,成最受欢迎开源大模型

今天凌晨3点,全球最大开源平台之一huggingface联合创始人兼首席执行官Clement Delangue发布了最新数据:中国开源大模型DeepSeek-R1在150万模型中,成为该平台最受欢迎的开源大模型,点赞超过1万。 前不久,Clement还特意发文恭喜DeepSeek-R1的下载量超过1000万次,同样创造了huggingface平台有史以来最受欢迎的模型。 看来,Clement也吃到DeepSeek的红利了,对它是真爱啊连续表扬。
2/24/2025 10:01:23 AM
AIGC开放社区

开源的风吹到视频生成:阿里开源登顶VBench的万相大模型,一手实测来了!

当很多 AI 公司还就是否该走开源路线而感到左右为难时,阿里的技术团队又开源了一个新的模型 —— 万相(Wan)视频生成大模型(包括全部推理代码和权重,最宽松的开源协议)。 经常玩视频生成模型的同学应该知道,当前的很多模型仍然面临多方面挑战,比如难以还原复杂的人物动作,处理不好物体交互时的物理变化,遇到长文本指令就「选择性遵循」等。 如果三个方面都做得比较好,那模型厂商多半是不舍得开源的。
2/26/2025 9:44:14 AM
机器之心

首个个性化对齐大模型问世!可精准识别用户内在动机和偏好,还有百万用户画像开源数据集 | 蚂蚁&人大

如何让大模型更懂「人」? 虽然现有大模型经过了人类价值观对齐训练,但其对齐效果往往会让少数群体的声音被系统性淹没。 那随之而来的问题是,当大模型服务全球用户,标准化对齐范式是否正在制造新的数字鸿沟?
4/8/2025 9:12:00 AM
量子位
  • 1