AI在线 AI在线

小米多模态大模型 MiMo-VL 开源,官方称多方面领先 Qwen2.5-VL-7B

官方表示,其在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型,为 Agent 时代而来。
感谢Xiaomi  MiMo 官方公众号今日发文宣布,小米多模态大模型 Xiaomi MiMo-VL 现已正式开源。官方表示,其在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型, Agent 时代而来

小米多模态大模型 MiMo-VL 开源,官方称多方面领先 Qwen2.5-VL-7B

MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时,在多模态推理任务上,仅用 7B 参数规模,在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o

图片

在评估真实用户体验的内部大模型竞技场中,MiMo-VL-7B 超越 GPT-4o,成为开源模型第一

图片

其能够完成复杂图片推理和问答等任务,在长达 10 多步的 GUI 操作上,MiMo-VL-7B 也展示了不错的潜力,甚至能帮你加购小米 SU7 至心愿单。

小米多模态大模型 MiMo-VL 开源,官方称多方面领先 Qwen2.5-VL-7B

小米多模态大模型 MiMo-VL 开源,官方称多方面领先 Qwen2.5-VL-7B

其采用了高质量的预训练数据以及创新的混合在线强化学习算法(Mixed On-policy Reinforcement Learning, MORL):

  • 多阶段预训练:

    收集、清洗、合成了高质量的预训练多模态数据,涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型,总计 2.4T tokens。通过分阶段调整不同类型数据的比例,强化长程多模态推理的能力。

  • 混合在线强化学习:

    混合文本推理、多模态感知 + 推理、RLHF 等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升模型推理、感知性能和用户体验。

MiMo-VL-7B 已开源 RL 前后两个模型,AI在线附开源链接:https://huggingface.co/XiaomiMiMo 及相关技术报告:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

MiMo-VL-7B 支持 50 + 测评任务的框架也已经开源至 GitHub:https://github.com/XiaomiMiMo/lmms-eval

相关资讯

小米大模型团队登顶音频推理 MMAU 榜,受到DeepSeek-R1启发

小米技术官方微博宣布,小米大模型团队在音频推理领域取得了显著进展。 他们在受到 DeepSeek-R1的启发后,率先将强化学习算法应用于多模态音频理解任务。 团队在短短一周内便以64.5% 的 SOTA(State Of The Art)准确率,登顶国际权威的 MMAU 音频理解评测榜,并同步将相关技术开源。
3/17/2025 11:43:00 AM
AI在线

小米大模型团队在音频推理领域取得重大突破,登顶国际评测榜

近日,小米大模型团队在音频推理领域的研究中取得了突破性进展,成功应用强化学习算法于多模态音频理解任务,准确率达到了64.5%,这一成就使其在国际权威的 MMAU 音频理解评测中夺得了第一名。 这一成果的背后,离不开团队对 DeepSeek-R1的启发。 MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集是衡量音频推理能力的重要标准,通过对包含语音、环境声和音乐的多种音频样本进行分析,测试模型在复杂推理任务中的表现。
3/17/2025 2:13:00 PM
AI在线

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线
  • 1