AI在线 AI在线

多模态大模型最新评测出炉!Gemini-3-Pro断层第一,豆包、商汤领跑国产阵营,Qwen3-VL成首个开源高分模型

全球多模态大模型竞争格局再更新。 近日,权威评测平台SuperCLUE-VLM发布2025年12月多模态视觉语言模型综合榜单,谷歌Gemini-3-Pro以83.64分断层领先,展现其在视觉理解与推理领域的压倒性优势。 字节跳动豆包大模型以73.15分强势跻身前三,商汤科技SenseNova V6.5Pro以75.35分位列第二,国产大模型整体表现亮眼,彰显中国AI在多模态赛道的快速追赶能力。

全球多模态大模型竞争格局再更新。近日,权威评测平台SuperCLUE-VLM发布2025年12月多模态视觉语言模型综合榜单,谷歌Gemini-3-Pro以83.64分断层领先,展现其在视觉理解与推理领域的压倒性优势。字节跳动豆包大模型以73.15分强势跻身前三,商汤科技SenseNova V6.5Pro以75.35分位列第二,国产大模型整体表现亮眼,彰显中国AI在多模态赛道的快速追赶能力。

 评测维度:三大能力全面衡量模型“眼力”

SuperCLUE-VLM从三大核心维度评估模型真实视觉理解能力:

- 基础认知:识别图像中的物体、文字、场景等基本元素;

- 视觉推理:理解图像逻辑、因果关系与隐含信息;

- 视觉应用:完成图文生成、跨模态问答、工具调用等任务。

 Gemini-3-Pro全面碾压,国产模型奋起直追

谷歌Gemini-3-Pro在三项指标中均遥遥领先:

- 基础认知:89.01分  

- 视觉推理:82.82分  

- 视觉应用:79.09分  

其综合表现远超其他竞品,巩固了谷歌在多模态领域的技术霸主地位。

国产阵营表现抢眼:

- 商汤SenseNova V6.5Pro以75.35分稳居第二,推理与应用能力均衡;

- 字节豆包大模型以73.15分位列第三,基础认知得分高达82.70,甚至超越部分国际模型,仅在视觉推理环节略有不足;

- 百度ERNIE-5.0-Preview与阿里Qwen3-VL紧随其后,均进入前五。

尤为值得关注的是,Qwen3-VL成为榜单中首个总分突破70分的开源多模态模型,为全球开发者提供高性能、可商用的开放基座。

image.png

 国际巨头表现分化:Claude稳健,GPT-5.2意外落后

国际阵营中,Anthropic的Claude-opus-4-5以71.44分位居中上游,延续其在语言理解上的优势;而OpenAI的GPT-5.2(high配置)仅得69.16分,排名相对靠后,引发业界对其多模态能力优化方向的讨论。

 AIbase观察:多模态竞赛进入“实用化”新阶段

SuperCLUE-VLM榜单不仅是一份技术排名,更折射出行业趋势:  

- 开源模型崛起:Qwen3-VL证明,开源路线同样可实现高性能,推动技术民主化;  

- 国产聚焦场景落地:豆包、商汤等模型在基础认知上表现优异,契合中文互联网图文理解、短视频分析等高频需求;  

- 视觉推理仍是瓶颈:多数模型在复杂逻辑、因果推断等高阶任务上仍有差距,这也是Gemini持续领先的关键。

随着多模态能力成为AI Agent、智能座舱、AR/VR等下一代应用的核心支撑,这场“看图说话”的竞赛,正决定谁将真正“看见”并理解世界。而中国大模型,已在通往全球第一梯队的路上加速奔跑。

相关资讯

最新中文大模型测评:百川智能 Baichuan 3 国内第一

最新中文大模型测评:百川智能 Baichuan 3 国内第一

感谢IT之家从百川大模型官方公众号获悉,今日国内大模型评测机构 SuperCLUE 发布了《中文大模型基准测评 2024 年度 4 月报告》,报告选取国内外具有代表性的 32 个大模型 4 月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告显示,百川智能的 Baichuan 3 在国内大模型中排名第一,智谱 GLM-4、通义千问 2.1、文心一言 4.0、Moonshot (Kimi) 等大模型位列其后。从全球范围来看,国外同行的 GPT-4、Claude3 得分更胜一筹。SuperCLU
4/30/2024 7:43:20 PM 远洋
SuperCLUE 中文大模型基准测评2024上半年报告

SuperCLUE 中文大模型基准测评2024上半年报告

SuperCLUE 发布了《中文大模型基准测评2024上半年报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。
7/10/2024 2:45:32 PM
国内首个!商汤科技发布“日日新5o”,实时多模态流式交互对标GPT-4o

国内首个!商汤科技发布“日日新5o”,实时多模态流式交互对标GPT-4o

2024 年 7 月 5 日,上海 ——2024 世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)战略合作伙伴商汤科技召开 “大爱无疆・向新力” 人工智能论坛,发布国内首个所见即所得模型 “日日新 5o”,交互体验对标 GPT-4o,实现全新 AI 交互模式。通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,国内首个所见即所得模型 “日日新 5o” 带来一种全新的 AI 交互模式,即实时的流式多模态交互。现场也为大家展示了这种创新交互模式 ——工作人员刚开始仅是和 “日日新 5o” 打个招
7/5/2024 3:02:00 PM 新闻助手