AI在线 AI在线

Omni

全新音频问答模型 Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答

最近,一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。 该模型在 Qwen2.5-Omni 的基础上,通过一种名为 GRPO(Group Relative Policy Optimization)的强化学习方法进行优化,显示出在音频问答任务中的出色表现。 Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩,涵盖了声音、语音和音乐等多个音频类别。
5/20/2025 12:00:55 PM
AI在线

Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活

在图像生成领域,Midjourney 近期推出了一项名为 “Omni-Reference”(全向参考)的新功能,为用户带来了更大的创作自由。 这一全新图像引用系统不仅是 V6版本中 “角色参考” 功能的升级版,更是赋予用户在创作过程中对图像元素的精准控制。 核心功能:全向参考与多元素支持Omni-Reference通过先进的图像参考系统,为用户提供了前所未有的创作控制力。
5/3/2025 11:00:48 AM
AI在线

阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%

在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。 这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。 这一创新标志着阿里在多模态人工智能领域的进一步突破。
5/1/2025 10:00:51 AM
AI在线

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!

出品 | 51CTO技术栈(微信号:blog51cto)Qwen Chat上新实时语音聊天 视频聊天了! 可以像打电话或视频通话一样与AI进行聊天,Qwen也有自己的Her了。 更更重要的是,一向大方开源的千问,直接开源了背后的模型 Qwen2.5-Omni-7B( Apache 2.0 许可),并发布了详细的技术报告!
3/27/2025 12:30:36 PM

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

12月16日,无问芯穹宣布正式开源其“端模型 端软件 端IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni,并同步开源了纯语言版本模型Megrez-3B-Instruct。 据介绍,Megrez-3B-Omni是一个为端而生的全模态理解模型,选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,推理速度最大领先同精度模型300%。 作为一个全模态模型,Megrez-3B-Omni同时具备图片、音频、文本三种模态数据的处理能力,并在三个模态的多种测评基准中取得了最优性能。
12/16/2024 2:26:00 PM
新闻助手
  • 1