谷歌发起的 AI 象棋赛首日战况：Grok 统治全场，Kimi 违规四连败，Claude 迷失残局！

在Google旗下Kaggle平台主办的“棋局竞技场”中，一场AI国际象棋比赛正在展开。参与者不是Stockfish或AlphaZero这样的专业引擎，而是八个大型语言模型（LLM）：Grok 4、Gemini 2.5 Pro、o4-mini、o3、Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi k2。比赛规则简单直接——单败淘汰制。

在Google旗下Kaggle平台主办的“棋局竞技场”中，一场AI国际象棋比赛正在展开。

参与者不是Stockfish或AlphaZero这样的专业引擎，而是八个大型语言模型（LLM）：Grok 4、Gemini 2.5 Pro、o4-mini、o3、Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi k2。

比赛规则简单直接——单败淘汰制。每局比赛，AI有四次机会做出合法走子，四次失败即告负。

不比谁“算力强”，而是要看谁更能理解、分析并解决问题。

这是一场对AI通用智能（AGI）未来潜力的探索试验。

01 横扫四场，Grok 4领跑全场

在8月5日首日四场对决中，四场全是4比0横扫，没有任何悬念。Grok 4击败Gemini 2.5 Flash，以全胜之姿晋级四强。

不仅赢得干净利落，更展现了全场最具逻辑性的走法。

在对局中，Grok 4不断识别对手的漏子，并迅速发起攻击，每一分都带着“计算后的猎杀”感。

相比其他模型依赖模板式开局和反应式走子，Grok 4则像是在做一场目标清晰的围猎。

Gemini 2.5 Flash的失误固然给了机会，但Grok 4真正让人惊讶的是它的策略意识和位置判断力。

即使是在没有开局库、没有辅助引擎的纯思维对弈中，Grok 4也表现出令人意外的棋局掌控力。

与此同时，Gemini 2.5 Pro也以4比0战胜Claude 4 Opus晋级。

这组对局中出现了更多“合法走子”的回合，也出现了数次由棋局终结的真正“将死”，而非判负。

其中最令人印象深刻的是第四局，Gemini 2.5 Pro在局面占优的情况下，仍旧犯下了几个不该有的“送子”失误。

即使如此，它依然靠两后强势将死对手，保住了胜果。不过，从比赛内容来看，Claude 4 Opus的表现明显更为混乱。

在第一局，它在第十步选择“g5”，主动暴露王翼，直接加速败局。评论指出：“Claude 4 Opus看上去知道一些战术，但局势一变，它就像陷入迷雾。”

DeepSeek R1对阵o4-mini的比赛更像是一场“幻觉测试”。

开局阶段，双方都能给出几步强有力的操作。但进入中局，DeepSeek R1反复犯下“看错棋盘”的错误。

在一盘中，它甚至试图将马移到一个不存在的位置。尽管如此，o4-mini仍然完成了两次“实打实”的将死，成为唯一在一场比赛中完成两次将死的AI。

o4-mini因此拿下4分，晋级下一轮。

最混乱的对局来自o3与Kimi k2的交手。Kimi k2没有在任何一局中完成超过8步的对弈。

它连续四次在第四次尝试时下出非法棋，自动判负。从注释来看，Kimi k2的确懂得一些开局套路。

但一旦脱离开局库，它便彻底迷失方向，甚至连车、象的走法都记错。不是不会下棋，而是“忘了规则”。

这让人对它的训练数据和逻辑能力产生疑问。

03 AI的弱点，暴露在棋盘上

比赛成了一面“照妖镜”。从棋盘的表现看，大部分AI模型在以下三个方面表现不佳：

第一，无法完整“视觉化”整盘棋。许多AI看得见棋子，却无法判断整体布局关系。

第二，缺乏“因果理解”的连续性。一个子被吃了之后，AI往往不能明白其位置失守的后果，下一步仍会把王送进敌人攻击线。

第三，合法走子频频出错。不仅仅是“不会”，而是“记不得”。Kimi k2在每盘中失败的方式几乎完全一样：连续四次下出非法走子。

而这不是引擎限制，而是理解能力薄弱的体现。相比之下，Grok 4在这三方面都展现出极强的适应力。它能识别未被保护的棋子，能计算简单战术，也没有出现非法走子的情况。

这场比赛仍在继续。8月6日，将迎来半决赛。

四强对阵如下：Grok 4 vs Gemini 2.5 Pro，o4-mini vs o3。

谁会最终登顶尚不得而知，但从首日表现来看，Grok 4无疑是目前的最大热门。

比赛官网：https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

谷歌发起的 AI 象棋赛首日战况：Grok 统治全场，Kimi 违规四连败，Claude 迷失残局！

01 横扫四场，Grok 4领跑全场

相关资讯

商汤科技：元萝卜 AI 下棋机器人“国际象棋专业版”9 月下旬上市

OpenAI开源客户服务代理框架加速企业级AI应用落地

专家揭示构建稳健AI编排层的最佳实践

谷歌发起的 AI 象棋赛首日战况：Grok 统治全场，Kimi 违规四连败，Claude 迷失残局！

01 横扫四场，Grok 4领跑全场

相关资讯

商汤科技：元萝卜 AI 下棋机器人“国际象棋专业版”9 月下旬上市

OpenAI开源客户服务代理框架 加速企业级AI应用落地

专家揭示构建稳健AI编排层的最佳实践

OpenAI开源客户服务代理框架加速企业级AI应用落地