AI在线 AI在线

高考数学大赛:六大AI模型争锋,豆包与元宝双双夺冠

随着高考的到来,数学考试再一次成为考生们心中的 “魔鬼”。 在这场竞争中,六大人工智能模型也参与了挑战,分别是字节的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。 此次测试采用的是2025年新课标 Ⅰ 卷的14道客观题,总分为73分,涵盖了单选题、多选题和填空题。

随着高考的到来,数学考试再一次成为考生们心中的 “魔鬼”。在这场竞争中,六大人工智能模型也参与了挑战,分别是字节的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。此次测试采用的是2025年新课标 Ⅰ 卷的14道客观题,总分为73分,涵盖了单选题、多选题和填空题。

image.png

为了确保测试的公平性,所有模型在答题时都没有系统提示和联网搜索的支持,每个模型只能进行一次答题。经过一番较量,最终结果出乎意料,豆包和元宝同以68分的成绩并列第一,展现了出色的推理能力。相对而言,DeepSeek 和通义则稍显逊色,分别以63分和62分完赛。而文心 X1和 o3的表现则令人失望,尤其是 o3,仅获得34分,显现出对国内高考题目的适应性不足。

image.png

在具体题型的表现上,豆包、通义和元宝在单选题的表现颇为亮眼,各自得分35分。DeepSeek 因两道题失误拿下30分,而 o3则惨遭滑铁卢,单选题的得分仅为20分,错了一半的题目。而在多选题方面,豆包、DeepSeek 和元宝均表现完美,三道题全对,展现出强大的稳定性。相对来说,通义的表现虽然快速,但在关键时刻的判断失误也导致得分不理想。

此次测试不仅显示出各大 AI 模型在高考数学上的潜力和不足,也反映了它们在推理能力和反思能力上的进步。相较于去年,这些模型在细节处理、公式应用和逻辑推理上都有显著的提升。尽管仍然存在一些错误和不足,但这次比赛无疑为未来的 AI 数学能力打下了基础。

相关资讯

​字节跳动推出 OmniHuman-1:让一张照片变成会说话生动的虚拟人

想象一下,仅凭一张照片,就能在几秒钟内看到这个人说话、做动作,甚至进行表演,这就是字节跳动推出的 OmniHuman-1的魅力所在。 这款近期在网上走红的人工智能模型,可以通过生成高度逼真的视频,使静态图像焕发活力,配合音频片段,实现口型同步、全身肢体动作和丰富的面部表情。 与传统的深度伪造技术不同,OmniHuman-1不仅仅局限于人脸替换,而是能够完整地动画化整个身躯,包括自然的手势、姿态,以及与物体的互动。
2/11/2025 10:23:00 AM
AI在线

谷歌推出 Gemma 3:号称可在单块 GPU 上运行的最强 AI 模型

谷歌今日推出了 Gemma 3 人工智能模型,这是继其一年前发布基于与 Gemini AI 相同技术的两款“开放”Gemma AI 模型后的又一升级之作。根据谷歌官方博客消息,Gemma 3 模型专为开发者设计,旨在支持他们构建能够在多种设备上运行的人工智能应用,无论是手机还是工作站,均可实现无缝运行。该模型支持超过 35 种语言,并具备分析文本、图像及短视频的能力。
3/12/2025 4:16:40 PM
远洋

AI 助力,新研究只用 5 滴血就能测出你的真实生理年龄

日本大阪大学科学家开发了一种新系统,仅需五滴血液,通过分析22种类固醇及其相互作用,利用AI模型估算生物年龄。这项研究发表在《科学进展》杂志,为个性化健康管理和早期检测年龄相关健康风险提供了新途径。#AI健康监测# #生物年龄#
3/17/2025 11:04:35 AM
远洋
  • 1