Qwen2.5-VL-7B
小米多模态大模型Xiaomi MiMo-VL开源
近日,小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。 该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,在GUI Grounding任务上的表现更是可与专用模型相媲美,为Agent时代的到来做好了准备。 MiMo-VL-7B在多模态推理任务上成绩斐然,尽管参数规模仅为7B,却在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,同时也超越了闭源模型GPT-4o。
5/30/2025 10:01:14 AM
AI在线
- 1
资讯热榜
DeepSeek R1-0528震撼发布:免费128K上下文,性能直逼OpenAI o3!
字节发布图像Agent“小云雀AI” 打造一键爆款创作神器
小米多模态大模型Xiaomi MiMo-VL开源
Youware重磅更新:MCP加持一键生成复杂网页,AI建站进入新时代!
实测 Google Veo 3:AI 视频终于能开口“说话”了 (附白嫖攻略+提示词技巧)
正式开源!DeepSeek-R1-0528震撼发布,性能直逼OpenAI o3,免费API已上线
全球首个:OpenAI 免除 20 美元月费,阿联酋全民免费用 ChatGPT Plus 订阅
全球首例!阿联酋全民免费使用ChatGPT Plus,AI国际化战略重大里程碑
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
Anthropic
腾讯
研究
神经网络
3D
计算
生成
Sora
机器学习
AI设计
AI for Science
苹果
GPU
训练
AI视频
华为
Claude
搜索
场景
人形机器人
百度
智能体
xAI
预测
伟达
大语言模型
深度学习
Transformer
字节跳动
模态
LLaMA
文本
具身智能
神器推荐
Copilot
视觉
驾驶
API
应用
Agent
算力
大型语言模型
工具
安全
干货合集
视频生成