AI在线 AI在线

谷歌发起的 AI 象棋赛首日战况:Grok 统治全场,Kimi 违规四连败,Claude 迷失残局!

在Google旗下Kaggle平台主办的“棋局竞技场”中,一场AI国际象棋比赛正在展开。 参与者不是Stockfish或AlphaZero这样的专业引擎,而是八个大型语言模型(LLM):Grok 4、Gemini 2.5 Pro、o4-mini、o3、Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi k2。 比赛规则简单直接——单败淘汰制。

在Google旗下Kaggle平台主办的“棋局竞技场”中,一场AI国际象棋比赛正在展开。

参与者不是Stockfish或AlphaZero这样的专业引擎,而是八个大型语言模型(LLM):Grok 4、Gemini 2.5 Pro、o4-mini、o3、Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi k2。

图片

比赛规则简单直接——单败淘汰制。每局比赛,AI有四次机会做出合法走子,四次失败即告负。

不比谁“算力强”,而是要看谁更能理解、分析并解决问题。

这是一场对AI通用智能(AGI)未来潜力的探索试验。

01 横扫四场,Grok 4领跑全场

在8月5日首日四场对决中,四场全是4比0横扫,没有任何悬念。Grok 4击败Gemini 2.5 Flash,以全胜之姿晋级四强。

图片

不仅赢得干净利落,更展现了全场最具逻辑性的走法。

在对局中,Grok 4不断识别对手的漏子,并迅速发起攻击,每一分都带着“计算后的猎杀”感。

相比其他模型依赖模板式开局和反应式走子,Grok 4则像是在做一场目标清晰的围猎。

Gemini 2.5 Flash的失误固然给了机会,但Grok 4真正让人惊讶的是它的策略意识和位置判断力

即使是在没有开局库、没有辅助引擎的纯思维对弈中,Grok 4也表现出令人意外的棋局掌控力。

图片

与此同时,Gemini 2.5 Pro也以4比0战胜Claude 4 Opus晋级。

这组对局中出现了更多“合法走子”的回合,也出现了数次由棋局终结的真正“将死”,而非判负。

其中最令人印象深刻的是第四局,Gemini 2.5 Pro在局面占优的情况下,仍旧犯下了几个不该有的“送子”失误。

即使如此,它依然靠两后强势将死对手,保住了胜果。不过,从比赛内容来看,Claude 4 Opus的表现明显更为混乱。

在第一局,它在第十步选择“g5”,主动暴露王翼,直接加速败局。评论指出:“Claude 4 Opus看上去知道一些战术,但局势一变,它就像陷入迷雾。”

DeepSeek R1对阵o4-mini的比赛更像是一场“幻觉测试”。

图片

开局阶段,双方都能给出几步强有力的操作。但进入中局,DeepSeek R1反复犯下“看错棋盘”的错误。

在一盘中,它甚至试图将马移到一个不存在的位置。尽管如此,o4-mini仍然完成了两次“实打实”的将死,成为唯一在一场比赛中完成两次将死的AI。

o4-mini因此拿下4分,晋级下一轮。

图片

最混乱的对局来自o3与Kimi k2的交手。Kimi k2没有在任何一局中完成超过8步的对弈。

它连续四次在第四次尝试时下出非法棋,自动判负。从注释来看,Kimi k2的确懂得一些开局套路。

但一旦脱离开局库,它便彻底迷失方向,甚至连车、象的走法都记错。不是不会下棋,而是“忘了规则”。

这让人对它的训练数据和逻辑能力产生疑问。

03 AI的弱点,暴露在棋盘上

比赛成了一面“照妖镜”。从棋盘的表现看,大部分AI模型在以下三个方面表现不佳:

第一,无法完整“视觉化”整盘棋。许多AI看得见棋子,却无法判断整体布局关系。

第二,缺乏“因果理解”的连续性。一个子被吃了之后,AI往往不能明白其位置失守的后果,下一步仍会把王送进敌人攻击线。

第三,合法走子频频出错。不仅仅是“不会”,而是“记不得”。Kimi k2在每盘中失败的方式几乎完全一样:连续四次下出非法走子。

而这不是引擎限制,而是理解能力薄弱的体现。相比之下,Grok 4在这三方面都展现出极强的适应力。它能识别未被保护的棋子,能计算简单战术,也没有出现非法走子的情况。

这场比赛仍在继续。8月6日,将迎来半决赛。

四强对阵如下:Grok 4 vs Gemini 2.5 Pro,o4-mini vs o3。

谁会最终登顶尚不得而知,但从首日表现来看,Grok 4无疑是目前的最大热门。

比赛官网:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

相关资讯

商汤科技:元萝卜 AI 下棋机器人“国际象棋专业版”9 月下旬上市

据新浪科技今天午间报道,商汤科技旗下的家用机器人品牌“元萝卜”发布了 AI 下棋机器人国际象棋专业版,将于 9 月下旬正式上市。报道称,由于国际象棋采用立体棋子且棋子造型各有特色、高低错落,这就给机器人抓取和识别棋子上造成了很大难度。相比于此前的象棋版、围棋版 AI 下棋机器人,国际象棋版机器人根据立体棋子的特点设置了 4 个自由度,构成肩部、肘部、小臂、爪子 4 个自由度的灵活结构,具备 0.5mm 极高精度和稳定度的垂直抓取操作,可夹起鹌鹑蛋而不破碎。据AI在线此前报道,去年 6 月,商汤发布了元萝卜 AI 下
8/26/2024 12:28:40 PM
清源

OpenAI开源客户服务代理框架 加速企业级AI应用落地

人工智能研究机构OpenAI于6月18日正式开源其客户服务代理框架,标志着该公司在企业级AI解决方案布局上迈出重要一步。 该框架通过提供透明工具链和清晰实施案例,旨在推动智能代理系统从实验室走向实际商业应用。 技术细节与核心优势.
6/19/2025 2:01:33 PM
AI在线

知乎直答:AI 搜索产品从 0 到 1 实践探索

一、知乎直答产品介绍知乎直答是具有强社区属性的通用 AI 搜索产品,但并非社区版 AI 搜索。 知乎直答具有以下几大优势:认真专业:与知乎专注专业内容生产的调性相符,严格把控参考来源与质量,确保回答认真且专业。 连接创作者:可在使用中关注、与创作者交流互动获取专业见解。
1/20/2025 10:40:08 AM
王界武
  • 1