AI在线 AI在线

ICPC总决赛被AI统治!GPT-5组合系统12题全对登顶,人类打破头只能争夺第三

这届大学生太难了,好不容易拼进编程竞赛总决赛,还要被AI秀一脸。 在刚刚结束的2025年国际大学程序设计竞赛(ICPC)世界总决赛上,OpenAI的系统完美解决全部12道题目,若计入排名将位居第一。 谷歌的Gemini 2.5 Deep Think模型解决10道题目,达到金牌水准名列第二。

这届大学生太难了,好不容易拼进编程竞赛总决赛,还要被AI秀一脸。

在刚刚结束的2025年国际大学程序设计竞赛(ICPC)世界总决赛上,OpenAI的系统完美解决全部12道题目,若计入排名将位居第一。

谷歌的Gemini 2.5 Deep Think模型解决10道题目,达到金牌水准名列第二。

图片图片

这场顶级赛事汇集了来自全球103个国家、近3000所大学的139支顶尖队伍。

而AI系统在ICPC官方监督的独立“AI实验赛道”中,与人类选手面对相同题目和评测标准,表现非常抢眼。

其中比较难的一道“问题C”,没有一个大学团队能够解决,Gemini和OpenAI的模型组合都解决了。

图片图片

谷歌不知出于什么原因,还比人类选手晚10分钟才启动系统,就有点过分了啊。

OpenAI满分夺魁,给GPT-5配了强力外援

OpenAI这次派出的是GPT-5和一个实验性推理模型的组合阵容。在不到五小时的比赛时间里,这套系统成功解决了全部12道题目。

具体来说,GPT-5独立完成了前11道题目,而且其中11道题都是一次提交就通过了ICPC官方的在线评测环境。

图片图片

对OpenAI系统来说,最有挑战的是问题G,由实验性推理模型在GPT-5遇到困难后接力完成,两个模型总共提交了9次才攻克这道难题。

人类选手中也只有第一名圣彼得堡国立大学团队在3次尝试中解决,很多大学团队一次都没有提交过这个问题。

图片图片

OpenAI暂没有分享这道题的解决思路,但他们特别强调参赛的是通用推理模型,并没有专门为ICPC进行训练。

另外值得一提的是,OpenAI团队中有不少研究员本身就是ICPC的参赛选手出身,包括接任Ilya的首席科学家Jakub Pachocki,关于他的故事可以看奥特曼:点名表扬两个波兰人,OpenAI还没遇到过他们解决不了的问题。

此时距离OpenAI首次推出推理模型o1差不多刚好一年,与一年前相比,现在的推理模型不仅更智能、更快速,而且成本效益更高了。

谷歌Gemini独立解决难题

谷歌Gemini 2.5 Deep Think在比赛开始10分钟后启动,最终在五小时内成功解决了12道题目中的10道,达到了金牌级别。

Gemini在前45分钟内就解决了8道题目,三小时内又攻克了两道,按照总用时677分钟计算,若与大学队伍比较,Gemini的成绩将排在第二位。

下图中,Gemini解决问题的时间以蓝色显示,最快的大学队伍所用时间以灰色显示。

图片图片

对于人类选手没解决的问题C,谷歌分享了解题思路。

这道题要求设计一个通过相互连接的管道网络向储存库分配液体的方案,目标是找到一种配置使所有储存库尽快填满。

由于每个管道可以打开、关闭或部分打开,可能的配置数量是无限的,这使得搜索最优配置变得极其困难。

图片图片

Gemini的解决方案:

它首先假设每个储存库都有一个“优先级值”,代表相对于其他储存库应该优先考虑的程度。

当给定一组优先级值时,可以使用动态规划算法找到管道的最佳配置通过应用极小化极大定理,原始问题可以通过寻找使结果流量最受约束的优先级值来解决。

利用优先级值和最优流量之间的关系,Gemini使用嵌套三元搜索在碗状凸解空间中快速找到最优优先级值,成功解决了问题C。

谷歌DeepMind表示,Gemini的成功融合了预训练、后训练、新型强化学习技术、多步推理和并行思维等一系列技术进展。

在强化学习过程中,他们训练Gemini为编程界面临的一些最困难的问题进行推理和生成代码,从结果反馈中学习并不断改进方法。

One More Thing

自推理模型范式问世之后,AI连续在数学奥赛IMO,信息学奥赛IOI,编程大赛ICPC中表现出色。

不过,这次OpenAI研究副总裁Jerry Tworek表示:

ICPC之后我们可能不会打别的竞赛了,下一个前沿领域更令人兴奋。

图片

人类选手们可以松一口气了。

那么什么是下一个前沿领域?可以参考Tworek最新的个人介绍:

如何将各类科学和工程技能应用于现实世界的问题。

图片图片

这些领域的研究者、工作者们,GPT-5来找你们了。

参考链接:[1]https://x.com/OpenAI/status/1968368133024231902[2]https://deepmind.google/discover/blog/gemini-achieves-gold-level-performance-at-the-international-collegiate-programming-contest-world-finals/[3]https://worldfinals.icpc.global/2025/

相关资讯

GPT-5遭用户吐槽 “垃圾”:缩放定律失效,AGI梦渐行渐远?

2025 年 8 月,OpenAI 终于推出备受期待的 GPT-5,但其表现并未如市场预期般带来 “革命性突破”,反而让 “AI 进步失速”“缩放定律失效” 的讨论再度升温。 GPT-5 实测:亮点有限,失望声四起YouTube播主 Mrwhosetheboss 的实测显示,GPT-5 并非全面领先:在创建象棋游戏时优于 . GPT-4o-mini-high,撰写视频脚本时强于 GPT-4o,且能根据任务自动匹配最优模型;但在生成 YouTube .
8/18/2025 9:57:30 AM

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM
AI在线

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线
  • 1