AI在线 AI在线

万能型

Kimi-Audio开源横扫全场景,1300万+小时数据炼成语音世界“大一统”

昨天,kim发布了一款“万能型”音频大模型— Kimi-Audio,支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。 换句话说,它可以听、可以说、可以理解、可以对话,支持实时语音会话,多轮交流。 图片一套架构,横扫音频全场景,开源可用。
4/28/2025 2:10:22 PM
  • 1