AI在线 AI在线

中国科学院计算技术研究所

Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型

GPT-4o式的多模态大模型(LMMs)展现出在文本、视觉和语音模态上的全能能力,其在线语音服务还能在语音交互过程中同步提供中间文本结果(即用户输入和模型响应的转录内容),为用户提供“边看边听”的灵活交互体验。 因此,如何构建支持文本、视觉和语音三种模态的多模态大模型成为近期研究热点。 现有的多模态大模型通常利用多个编码器提取各个模态的表示,然后将各模态表示沿序列维度拼接并输入至大语言模型基座中以生成回复。
7/7/2025 12:58:00 PM
机器之心
  • 1