AI在线 AI在线

VibeVoice-Realtime-0.5B

微软发布 VibeVoice 0.5B:仅0.5B参数却实现300毫秒实时开口

微软今日发布全新的实时文本转语音模型 VibeVoice-Realtime-0.5B。 尽管模型规模仅为0.5B,但却具备接近实时的语音生成能力,最快可在约300毫秒内开始发声,实现“话未说完音已先到”的流畅体验。 该模型支持中英文实时转录与语音生成,其中中文表现略逊于英文,但整体依然保持高流畅度与高还原度。
12/5/2025 11:26:14 AM
AI在线