AI在线 AI在线

全新音频问答模型 Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答

最近,一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。 该模型在 Qwen2.5-Omni 的基础上,通过一种名为 GRPO(Group Relative Policy Optimization)的强化学习方法进行优化,显示出在音频问答任务中的出色表现。 Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩,涵盖了声音、语音和音乐等多个音频类别。

最近,一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上,通过一种名为 GRPO(Group Relative Policy Optimization)的强化学习方法进行优化,显示出在音频问答任务中的出色表现。

image.png

Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩,涵盖了声音、语音和音乐等多个音频类别。研究团队指出,尽管模型的训练涉及音频数据,但其性能提升的主要原因竟然是文本推理能力的增强。这一发现让人惊讶,因为即使仅使用文本数据进行微调,模型的表现也取得了显著的提升。

为此,研究人员利用 ChatGPT 生成了大量音频问答数据,创建了两个新的数据集:AVQA-GPT 和 VGGS-GPT。这两个数据集分别包含4万和18.2万条音频数据,进一步提升了 Omni-R1的准确性。在训练过程中,Omni-R1的表现超过了以往的基线模型,包括 SARI,平均得分达到71.3%。研究表明,尽管使用音频进行微调稍微优于仅使用文本,但后者的贡献同样不可忽视。

GRPO 方法的一个关键优点是其内存效率,使得在48GB 的 GPU 上能够有效运行。该方法通过比较分组输出,基于答案的正确性来进行奖励,而无需使用复杂的价值函数。研究人员通过扩展 Qwen-2Audio 的音频描述来增加训练数据,这种策略使得模型在多模态任务上更具竞争力。

Omni-R1不仅在音频问答领域设立了新的标杆,还展示了文本推理在音频模型性能中的重要性。未来,研究团队承诺将发布所有相关资源,以便更多研究人员和开发者能够利用这一成果。

论文:https://arxiv.org/abs/2505.09439

划重点:  

🔍 Omni-R1是基于 Qwen2.5-Omni 模型,通过 GRPO 强化学习方法优化而成的音频问答模型。  

📈 该模型在 MMAU 基准测试中取得了新高度,文本推理能力的提升被认为是主要原因。  

🛠️ 研究团队通过 ChatGPT 生成新数据集,极大地提升了模型的训练效果和准确性。

相关资讯

阿里通义宣布开源R1-Omni模型 可提升多模态情感识别能力

3月11日,通义实验室团队宣布开源R1-Omni模型,为全模态模型的发展带来了新的突破。 该模型结合了强化学习与可验证奖励(RLVR)方法,专注于提升多模态情感识别任务中的推理能力和泛化性能。 R1-Omni的训练分为两个阶段。
3/12/2025 8:21:00 AM
AI在线

百分点认知智能实验室:智能对话技术应用和实践

编者按智能对话系统因其巨大的潜力和商业价值受到越来越多研究者和从业者的关注,对话的主要种类包括闲聊型、知识型、任务型、阅读理解型等,目前已经广泛应用在智能客服、智能音箱、智能车载等众多场景。近年来,智能对话还出现了新的应用场景,例如可以将自然语言转换为各种程序性语言,如SQL,从数据库中找到相应的答案,让用户和数据库的交互变得更加直接和方便。为此,Datafun发布了百分点首席算法科学家苏海波署名文章,文中主要介绍了智能问答中的问题语义等价模型、知识图谱问答模型、NL2SQL模型,以及百分点在智能问答领域的实践案例
3/10/2021 5:05:00 PM
百分点科技

讯飞星火 Lite API 能力免费开放:在线联网搜索、低算力推理场景

感谢科大讯飞今日官宣,旗下讯飞星火 Lite API 永久免费开放,支持在线联网搜索、适用于低算力推理与模型精调等定制化场景。IT之家注:讯飞星火 Pro / Max API 价格为:0.21 元 / 万 tokens。据介绍,1token 相当于 1.5 个中文汉字,用户付费 0.21 元即可调用“讯飞星火 3.5 Max”生成一部“余华《活着》”的内容量。讯飞星火大模型 V3.5 发布于今年 1 月,该模型带来七大能力提升:文本生成提升 7.3%,语言理解提升 7.6%,知识问答提升 4.7%,逻辑推理提升 9
5/22/2024 10:39:07 AM
归泷(实习)
  • 1