AI在线 AI在线

开源端到端语音大模型Step-Audio-AQAA:听懂音频直接生成自然语音

在人工智能领域,尤其是生成式对抗网络(AIGC)方面的不断进展,语音交互已成为一个重要的研究方向。 传统的大语言模型(LLM)主要专注于文本处理,无法直接生成自然语音,这在一定程度上影响了人机音频交互的流畅性。 为了突破这一局限,Step-Audio 团队开源了一款全新的端到端语音大模型 ——Step-Audio-AQAA。

在人工智能领域,尤其是生成式对抗网络(AIGC)方面的不断进展,语音交互已成为一个重要的研究方向。传统的大语言模型(LLM)主要专注于文本处理,无法直接生成自然语音,这在一定程度上影响了人机音频交互的流畅性。

为了突破这一局限,Step-Audio 团队开源了一款全新的端到端语音大模型 ——Step-Audio-AQAA。该模型能够直接从原始音频输入生成自然流畅的语音输出,使得人机交流更加自然。

image.png

Step-Audio-AQAA 的架构由三个核心模块组成:双码本音频标记器、骨干 LLM 和神经声码器。其中,双码本音频标记器负责将输入的音频信号转化为结构化的标记序列。这个模块分为语言标记器和语义标记器,前者提取语言的结构化特征,后者则捕捉语音的情感和语调等副语言信息。通过这种双码本设计,Step-Audio-AQAA 能够更好地理解语音中的复杂信息。

接下来,这些标记序列会被送入骨干 LLM,即 Step-Omni。这是一款预训练的1300亿参数的多模态模型,具备处理文本、语音和图像的能力。该模型采用了解码器架构,可以高效地处理来自双码本音频标记器的标记序列,通过深度的语义理解和特征提取,为后续生成自然语音做好准备。

最后,生成的音频标记序列会被送入神经声码器。该模块的作用是将离散的音频标记合成为高质量的语音波形,采用了 U-Net 架构,以确保在音频处理中的高效性和准确性。通过这种创新的架构设计,Step-Audio-AQAA 能够在听懂音频问题后,迅速合成自然、流畅的语音回答,为用户提供了更好的交互体验。

这项技术的发展代表着人机音频交互的一个重要进步,开源的 Step-Audio-AQAA 不仅为研究者提供了一个强大的工具,也为未来的智能语音应用打下了坚实的基础。

开源地址:https://huggingface.co/stepfun-ai/Step-Audio-AQAA

划重点:

🔊  Step-Audio 团队开源的 Step-Audio-AQAA 可以直接从音频输入生成自然语音,提升人机交互体验。

📊  模型架构由双码本音频标记器、骨干 LLM 和神经声码器三个模块组成,能够高效捕捉语音中的复杂信息。

🎤  Step-Audio-AQAA 的推出标志着语音交互技术的重要进展,为未来智能语音应用提供了新思路。

相关资讯

效果最佳!阶跃星辰开源Step-Video-T2V 视频生成模型

今日,阶跃星辰与吉利汽车集团宣布,联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。 其中,阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。 该模型拥有300亿参数量,能够直接生成204帧、540P分辨率的高质量视频,确保生成内容信息密度高、一致性强。
2/18/2025 8:55:00 AM
AI在线

运动可控!阶跃星辰 Step-Video-TI2V 图生视频模型开源

上海阶跃星辰智能科技有限公司宣布开源其最新的图生视频模型——Step-Video-TI2V。 这一模型是基于30B参数的Step-Video-T2V训练而成,能够生成102帧、5秒、540P分辨率的视频,具有运动幅度可控和镜头运动可控两大核心特点,尤其在动漫效果方面表现出色。 与现有的开源图生视频模型相比,Step-Video-TI2V不仅在参数规模上提供了更高的上限,其运动幅度可控能力还能平衡视频生成结果的动态性和稳定性,为创作者提供了更灵活的选择。
3/20/2025 2:32:00 PM
AI在线

音乐界的sd?ACE-Step音乐生成模型发布,20秒打造4分钟完整歌曲

ACE-Step,一款由ACE Studio与StepFun联合开发的音乐生成“基础模型”,于近日正式亮相,被誉为“音乐界的Stable Diffusion”。 该模型以其惊人的生成速度和多样化功能引发行业热议,支持19种语言,可在短短20秒内生成一首长达4分钟的完整音乐作品,效率比主流模型快15倍以上。 核心功能亮点:从歌词到完整歌曲一气呵成ACE-Step以其强大的生成能力重新定义了AI音乐创作。
5/6/2025 5:00:41 PM
AI在线
  • 1