AI在线 AI在线

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

12月16日,无问芯穹宣布正式开源其“端模型 端软件 端IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni,并同步开源了纯语言版本模型Megrez-3B-Instruct。 据介绍,Megrez-3B-Omni是一个为端而生的全模态理解模型,选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,推理速度最大领先同精度模型300%。 作为一个全模态模型,Megrez-3B-Omni同时具备图片、音频、文本三种模态数据的处理能力,并在三个模态的多种测评基准中取得了最优性能。

12月16日,无问芯穹宣布正式开源其端模型+端软件+IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni,并同步开源了纯语言版本模型Megrez-3B-Instruct。

据介绍,Megrez-3B-Omni是一个为端而生的全模态理解模型,选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,推理速度最大领先同精度模型300%。作为一个全模态模型,Megrez-3B-Omni同时具备图片、音频、文本三种模态数据的处理能力,并在三个模态的多种测评基准中取得了最优性能。

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

Github: https://github.com/infinigence/Infini-Megrez

HuggingFace:https://huggingface.co/Infinigence/Megrez-3B-Omni

图片、文本、音频,全模态高性能

Megrez-3B-Omni 拒绝牺牲任何模态的精度,在图片、文本、音频三个模态中均取得了同尺寸下最优性能。无论是和同样三模态的VITA ( based on Mixtral 8×7B) 、Baichuan-Omni-7B ,还是双模态的MiniCPM-V 2.6 ( based on Qwen2-7B)、Qwen2-VL-7B、Qwen2-Audio-7B,又或是单一模态的Qwen、Baichuan 等模型相比,Megrez-3B-Omni 在主流基准测试集上的表现都毫不逊色。

图片理解:3B体量对标34B模型表现

在图像理解方面,Megrez-3B-Omni 作为一个体积仅为3B的模型,其综合性能表现可以全面超过34B的庞然大物,超越LLaVA-NeXT-Yi-34B 等模型,是目前OpenCompassMMEMMMUOCRBench等多个主流测试集上精度最高的图像理解模型之一。

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

与此同时,Megrez-3B-Omni 在场景理解、OCR 等任务上也具有良好表现,能够准确洞察和分析图像中的场景内容,并高效地从中提取文本信息,且无论是模糊的印刷体还是复杂的手写字,都能够轻松识别。

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

Megrez-3B-Omni 屏幕识别

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

Megrez-3B-Omni 手写体识别

文本理解:超越上一代14B最佳模型

在文本理解方面,作为全模态理解模型,Megrez-3B-Omni 没有牺牲模型的文本处理能力,将上一代14B大模型的优秀能力压缩至3B规模,显著降低了计算成本、提升了计算效率。在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上更是取得端上模型最优精度,在文本理解方面取得全球领先地位。

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

Megrez-3B-Omni 文本理解

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

Megrez-3B-Omni 代码理解

音频理解:轻松以音问图、以音解文、以音听音

在语音理解方面,Megrez-3B-Omni 的效果比肩行业主流方案。Megrez-3B-Omni不仅支持中文和英文的语音输入,还能够处理复杂的多轮对话场景,更能支持对输入图片或文字的语音提问,实现不同模态间的自由切换。用户就任意模态内容,发出语音指令,Megrez-3B-Omni 就能根据语音指令直接响应文本,让用户可以通过更少动作与模型展开更直观、自然的交互。

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

Megrez-3B-Omni 语音理解

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

Megrez-3B-Omni 多种模态自由切换

令人惊叹的推理效率

模型的规模并不是决定其速度的唯一因素,因此模型小并不一定就意味着速度快。凭借对硬件特性的深入理解与利用,Megrez-3B-Omni 通过软硬件协同优化策略,确保了各参数与主流硬件高度适配,以实现硬件性能的利用最大化。与上一代及其他端侧大语言模型相比,单模态版本的Megrez-3B-Instruct 在推理速度上取得了显著提升,最大推理速度可以领先同精度模型300%

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

多场景灵活应用

Megrez-3B-Instruct 这次还特别提供了WebSearch 功能,这一功能使得模型能够智能地判断何时需要调用外部工具进行网页搜索,辅助回答用户的问题。用户得以构建属于自己AI搜索,通过网络获取最新信息,克服小模型的幻觉问题和知识储备不足的局限。

有时,模型通过搜索网页可以更全面地完成回答,而其他时候,模型自身已具备足够的知识来独立解决问题,过多的搜索调用可能会降低推理速度和效果。Megrez-3B-Instruct 通过在搜索和对话之间智能切换,避免了过度依赖搜索或完全不调用搜索的问题。除了可以自动决策工具调用时机之外,Megrez-3B-Instruct 还具备上下文理解性能优异、可提供带参考信息的结构化输出等优势。目前,这些能力都已集成于Megrez-3B-Instruct 模型中,用户可以通过System Prompt 自由切换,同时享受到高精度模型推理能力与智能WebSearch 调用收益。

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

端上智能需要一体化解决方案

相较于云端大模型,端侧模型需要在资源有限的设备上快速部署、高效运行,对降低模型计算和存储需求提出更高要求。无问芯穹技术团队源起于清华大学电子工程系NICS-EFC实验室,在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验,是模型轻量化、软硬件协同优化领域的顶尖团队。

无问芯穹表示,Megrez-3B-Omni是一个能力预览,接下来还将持续迭代Megrez系列,提升自动化水平至“edge device use”效果,让用户只需要给出简单的语音指令,就可完成端设备的设置或应用操作,并将它作为端模型+端软件+IP”端上智能一体化解决方案的重要构成推向市场。

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

在这个方案中,除端侧全模态理解模型外,还有端上推理软件和IP设计方案,不仅支持CPUGPUNPU 的同时推理,更能通过跨越软硬件层次的系统优化,额外带来最高可达70%的性能提升,最大化端侧硬件性能的利用。

通过端模型+端软件+IP”一体化设计,无问芯穹将持续致力于为端侧设备提供更完整、对硬件利用更高效的智能方案,促进大模型在端侧设备上实现更高推理速度与更低能耗,推动端侧智能更快迎接AGI到来。

相关资讯

vivo 新多模态模型登场,AI 理解GUI界面能力再升级!

vivo 新多模态模型登场,AI 理解GUI界面能力再升级!

近日,vivo AI Lab 发布了其最新的端侧多模态模型 ——BlueLM-2.5-3B。 这款模型不仅小巧高效,更具备了理解图形用户界面(GUI)的能力,标志着人工智能在处理文本和图像方面迈出了重要一步。 BlueLM-2.5-3B 的独特之处在于它可以灵活切换长短思考模式,并引入了思考预算控制机制,帮助 AI 更好地平衡思考的深度与效率。
7/11/2025 11:12:21 AM AI在线
GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录

GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录

想用大模型赚钱?这个实力强劲的新面孔决定先把推理成本打下来。大模型业务到底多烧钱?前段时间,华尔街日报的一则报道给出了参考答案。报道显示,微软的 GitHub Copilot 业务(背后由 OpenAI 的 GPT 大模型支撑)虽然每月收费 10 美元,但平均还是要为每个用户倒贴 20 美元。可见当前 AI 服务提供商们正面临着严峻的经济账挑战 —— 这些服务不仅构建成本高昂,运营成本也非常高。有人比喻说:「使用 AI 总结电子邮件,就像是让兰博基尼送披萨外卖。」对此,OpenAI 算过一笔更详细的账:当上下文长度
11/6/2023 3:29:00 PM 机器之心
大佬出走后首个发布,Stability 官宣代码模型 Stable Code Instruct 3B

大佬出走后首个发布,Stability 官宣代码模型 Stable Code Instruct 3B

【新智元导读】Stability AI 在大佬出走后似乎并未受到影响,最近又官宣了新的代码模型 Stable Code Instruct 3B,在之前的基础上更进一步,干掉了所有同级竞品,甚至能和 7B、15B 的模型掰手腕。大佬出走后,第一个模型来了!就在今天,Stability AI 官宣了新的代码模型 Stable Code Instruct 3B。要说 Stability 也是真的很神奇,首席执行官辞职了,Stable Diffusion 其中几位作者也离开了,投资公司出了点故障,自己的工资也可能要发不起了
3/29/2024 11:22:55 PM 清源