多模态视觉大模型12月战报:Gemini 霸榜，豆包、商汤领跑国产阵营

作者：AI在线 2025-12-31 10:55

在刚刚公布的 SuperCLUE-VLM12月多模态视觉语言基准测评中，全球 AI 大模型展现出了极强的竞争态势。本次测评从基础认知、视觉推理以及视觉应用三个核心维度展开，全方位考察了各大模型的“眼力”与“脑力”。在此次角逐中，谷歌推出的Gemini-3-pro以83.64分的绝对优势摘得桂冠。

在刚刚公布的 SuperCLUE-VLM12月多模态视觉语言基准测评中，全球 AI 大模型展现出了极强的竞争态势。本次测评从基础认知、视觉推理以及视觉应用三个核心维度展开，全方位考察了各大模型的“眼力”与“脑力”。

在此次角逐中，谷歌推出的Gemini-3-pro以83.64分的绝对优势摘得桂冠。详细数据显示，其在三项细分指标上均实现了全面领先，展现了国际顶尖模型的深厚底蕴。而在国产模型方面，整体表现同样亮眼。商汤科技的 SenseNova V6.5Pro 以75.35分紧随其后位居次席，字节跳动旗下的豆包视觉版则以73.15分成功闯入前三。值得一提的是，豆包在基础认知方面的表现甚至超越了部分国际强敌。

此外，百度 ERNIE-5.0-Preview 与阿里巴巴的 Qwen3-vl 也成功进入榜单前五。其中，Qwen3-vl 更是成为榜单中首个总分突破70分大关的开源模型，为开源社区贡献了极强的视觉解析能力。

相比之下，部分国际老牌劲旅的表现略显乏力。Anthropic 的 Claude-opus-4-5获得71.44分，而 OpenAI 的 GPT-5.2（high）则意外跌出第一梯队，仅以69.16分排名靠后。这一排名的变动，也标志着多模态 AI 领域的竞争正进入白热化的阶段。

划重点:

🏆 全球领跑:谷歌 Gemini-3-pro 以83.64分夺冠，在基础认知、视觉推理和应用三项指标上均位列第一。
🇨🇳 国产爆发:商汤 SenseNova 与字节跳动豆包分列二、三名，展现了中国大模型在视觉理解领域的强劲竞争力。
📊 行业洗牌:Qwen3-vl 成为首个破70分的开源模型，而 GPT-5.2（high）在本次视觉测评中表现不及预期，位居后列。

最新中文大模型测评：百川智能 Baichuan 3 国内第一

感谢IT之家从百川大模型官方公众号获悉，今日国内大模型评测机构 SuperCLUE 发布了《中文大模型基准测评 2024 年度 4 月报告》，报告选取国内外具有代表性的 32 个大模型 4 月份的版本，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。报告显示，百川智能的 Baichuan 3 在国内大模型中排名第一，智谱 GLM-4、通义千问 2.1、文心一言 4.0、Moonshot (Kimi) 等大模型位列其后。从全球范围来看，国外同行的 GPT-4、Claude3 得分更胜一筹。SuperCLU

4/30/2024 7:43:20 PM 远洋

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM AI在线

多模态视觉大模型12月战报:Gemini 霸榜，豆包、商汤领跑国产阵营

相关资讯

最新中文大模型测评：百川智能 Baichuan 3 国内第一

SuperCLUE 中文大模型基准测评2024上半年报告

调查：超72% 的企业选择 AI 工具时最看重易用性