AI在线 AI在线

Omni

Ant Group and inclusionAI Jointly Launch Ming-Omni: The First Open Source Multi-modal GPT-4o

Recently, Inclusion AI and Ant Group jointly launched an advanced multimodal model called "Ming-Omni," marking a new breakthrough in intelligent technology. Ming-Omni is capable of processing images, text, audio, and video, providing powerful support for various applications. Its functions not only cover speech and image generation but also possess the ability to integrate and process multimodal inputs.** Comprehensive Multimodal Processing Capability **.
6/16/2025 11:01:43 AM
AI在线

全新音频问答模型 Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答

最近,一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。 该模型在 Qwen2.5-Omni 的基础上,通过一种名为 GRPO(Group Relative Policy Optimization)的强化学习方法进行优化,显示出在音频问答任务中的出色表现。 Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩,涵盖了声音、语音和音乐等多个音频类别。
5/20/2025 12:00:55 PM
AI在线

Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活

在图像生成领域,Midjourney 近期推出了一项名为 “Omni-Reference”(全向参考)的新功能,为用户带来了更大的创作自由。 这一全新图像引用系统不仅是 V6版本中 “角色参考” 功能的升级版,更是赋予用户在创作过程中对图像元素的精准控制。 核心功能:全向参考与多元素支持Omni-Reference通过先进的图像参考系统,为用户提供了前所未有的创作控制力。
5/3/2025 11:00:48 AM
AI在线

阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%

在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。 这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。 这一创新标志着阿里在多模态人工智能领域的进一步突破。
5/1/2025 10:00:51 AM
AI在线

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!

出品 | 51CTO技术栈(微信号:blog51cto)Qwen Chat上新实时语音聊天 视频聊天了! 可以像打电话或视频通话一样与AI进行聊天,Qwen也有自己的Her了。 更更重要的是,一向大方开源的千问,直接开源了背后的模型 Qwen2.5-Omni-7B( Apache 2.0 许可),并发布了详细的技术报告!
3/27/2025 12:30:36 PM

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

12月16日,无问芯穹宣布正式开源其“端模型 端软件 端IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni,并同步开源了纯语言版本模型Megrez-3B-Instruct。 据介绍,Megrez-3B-Omni是一个为端而生的全模态理解模型,选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,推理速度最大领先同精度模型300%。 作为一个全模态模型,Megrez-3B-Omni同时具备图片、音频、文本三种模态数据的处理能力,并在三个模态的多种测评基准中取得了最优性能。
12/16/2024 2:26:00 PM
新闻助手
  • 1