Omni

Ant Group and inclusionAI Jointly Launch Ming-Omni: The First Open Source Multi-modal GPT-4o

Ant Group and inclusionAI Jointly Launch Ming-Omni: The First Open Source Multi-modal GPT-4o

Recently, Inclusion AI and Ant Group jointly launched an advanced multimodal model called "Ming-Omni," marking a new breakthrough in intelligent technology. Ming-Omni is capable of processing images, text, audio, and video, providing powerful support for various applications. Its functions not only cover speech and image generation but also possess the ability to integrate and process multimodal inputs.** Comprehensive Multimodal Processing Capability **.

6/16/2025 11:01:43 AM AI在线

全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

最近，一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上，通过一种名为 GRPO（Group Relative Policy Optimization）的强化学习方法进行优化，显示出在音频问答任务中的出色表现。 Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩，涵盖了声音、语音和音乐等多个音频类别。

5/20/2025 12:00:55 PM AI在线

Midjourney V7推出全新功能 “Omni-Reference”，让图像生成更灵活

Midjourney V7推出全新功能 “Omni-Reference”，让图像生成更灵活

在图像生成领域，Midjourney 近期推出了一项名为 “Omni-Reference”（全向参考）的新功能，为用户带来了更大的创作自由。这一全新图像引用系统不仅是 V6版本中 “角色参考” 功能的升级版，更是赋予用户在创作过程中对图像元素的精准控制。核心功能:全向参考与多元素支持Omni-Reference通过先进的图像参考系统，为用户提供了前所未有的创作控制力。

5/3/2025 11:00:48 AM AI在线

阿里开源多模态模型Qwen2.5-Omni：显存大幅降低暴降 50%

阿里开源多模态模型Qwen2.5-Omni：显存大幅降低暴降 50%

在开源大模型的竞争中，阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%，在同等处理能力下，更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。

5/1/2025 10:00:51 AM AI在线

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！

出品 | 51CTO技术栈（微信号：blog51cto）Qwen Chat上新实时语音聊天视频聊天了！可以像打电话或视频通话一样与AI进行聊天，Qwen也有自己的Her了。更更重要的是，一向大方开源的千问，直接开源了背后的模型 Qwen2.5-Omni-7B（ Apache 2.0 许可），并发布了详细的技术报告！

3/27/2025 12:30:36 PM

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理

12月16日，无问芯穹宣布正式开源其“端模型端软件端IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni，并同步开源了纯语言版本模型Megrez-3B-Instruct。据介绍，Megrez-3B-Omni是一个为端而生的全模态理解模型，选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸，结构规整，推理速度最大领先同精度模型300%。作为一个全模态模型，Megrez-3B-Omni同时具备图片、音频、文本三种模态数据的处理能力，并在三个模态的多种测评基准中取得了最优性能。

12/16/2024 2:26:00 PM 新闻助手

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉