把科研写成 Python：X-Master 用代码拆碎“人类最后考试”

大家好，我是肆〇柒，当下，LLM 从最初的对话能力到如今的强大推理能力，AI 模型正在不断进化。而最新的趋势是从单一的对话模型向通用目的 AI 智能体转变，这一转变有望彻底改变科学研究的范式。本文将探讨上海交通大学人工智能学院推出的 X-Master，它是 SciMaster 系列研究的第一步，目标就是构建通用科学 AI 智能体。X-Master 凭借其创新的工具增强型推理机制和分散 - 堆叠工作流，在 “人类最后的考试”（Humanity’s Last Exam，HLE）基准测试中取得了前所未有的好成绩，为我们展示了 AI 在科学发现中加速复杂问题解决的巨大潜力。

X-Master 速览：

《人类终极考题》评测结果出炉：X-Masters 以 32.1% 的准确率刷新纪录，力压 Kimi、Gemini 及 OpenAI 的深度研究产品

突破性成绩 ：X-Masters 在 HLE 上以 32.1% 的成绩首破 30% 大关，超越 OpenAI 和 Google DeepMind 的产品。
开源贡献 ：项目开源，为科学 AI 领域提供了宝贵的经验和技术支持，促进研究合作与创新。
创新架构 ：将代码作为交互语言，实现工具增强型推理（TAR），并在分散 - 堆叠工作流中提升推理的广度和深度。

X-Master 概览：一款借助工具增强推理能力的智能体。当用户提出问题后，智能体首先进入“思考”阶段，并通过生成一段代码来触发与外部环境的交互——例如调用各类工具。工具返回的执行结果会即时追加到智能体的上下文中，从而不断丰富其认知并指导下一步推理。以本次流程为例，智能体共发起三次交互：先搜索获取 GitHub 链接，再解析得到 arXiv 论文地址，最后解析出作者所属机构，直至得出最终答案

HLE 基准与现有局限

当前 AI 领域正面临从专为特定任务设计的大型语言模型（LLM），向能够处理多种复杂任务的通用目的 AI 智能体迈进。这一转变的核心目标是利用 AI 加速科学发现，帮助人类突破认知边界。在这种背景下，Humanity’s Last Exam（HLE）被提出，成为评估科学 AI 智能体能力的关键基准测试。HLE 包含 2,518 个文本题，覆盖数学、人文社科、生物、医学、化学、物理、工程、计算机科学等 8 个学科领域，由 500 多个机构的 1,000 多位专家命题。这些问题不仅要求智能体具备广泛的知识覆盖面，还需要对各个领域的核心概念有深入的理解，并能够进行复杂的逻辑推理。HLE 在科学 AI 领域具有极其重要的地位和广泛影响力，它为科学 AI 智能体的研发和评估提供了一个极具挑战性的标准，推动着科学 AI 技术的不断进步和发展。

但问题在于：模型如何像人类一样 “动手” 查资料？下面 X-Master 给出了一个激进的答案 —— 把 Python 代码变成母语。现有方法在应对 HLE 时暴露出诸多局限性。首先，模型知识的时效性不足，难以跟上快速发展的科学前沿。其次，推理能力有限，尤其是在需要多步骤逻辑推理和跨领域知识整合时，现有模型容易出现错误或不完整的结论。最后，工具使用的灵活性不足，现有模型在调用外部工具时往往缺乏动态适应性，难以根据具体问题需求进行精准操作。这些挑战严重制约了科学 AI 的发展，使得开发更强大的科学 AI 智能体成为当务之急。

X-Master：TAR 架构

代码即交互语言

在 HLE 的 2,518 道题里，有一道 “如何用最少衍射光栅重建光谱体积” 曾难倒多数模型。人类研究员会怎么做？先查文献、再写公式、最后交叉验证 —— 这正是 X-Master 想模拟的 “边想边查” 过程。

X-Master 的设计理念源于对人类研究者工作方式的深入观察。在解决复杂问题时，人类研究者通常会在内部推理和外部工具使用之间灵活切换。X-Master 模仿了这种人类的动态问题解决过程。它将代码视为与外部环境交互的语言，使智能体能够在遇到内部无法解决的问题时，制定精确的代码行动计划。例如，当需要进行复杂的数学计算时，X-Master 可以生成 Python 代码，调用 SciPy 等科学计算库来完成任务。执行结果会自动反馈到智能体的上下文中，丰富其对问题的理解，从而指导后续的推理过程。

这种设计使 X-Master 成为一个真正的动态问题解决者，而非传统的静态推理模型。它能够像人类一样，在思考过程中主动寻求外部帮助，灵活调用各种资源，并根据反馈不断调整优化自己的解决方案。与传统的工具调用方式相比，将代码作为交互语言具有显著优势。代码作为一种通用且灵活的语言，能够精确表达智能体与外部环境交互的各种需求，无论是进行复杂的科学计算、调用定制工具，还是处理 Web 结果等，都能轻松实现。这种灵活性使得 X-Master 能够适应各种复杂的科学任务，大大提升了其推理能力和解决问题的灵活性。

初始推理引导机制

尽管 X-Master 的设计概念先进，但在实际操作中，如何引导模型有效地进行代码生成和工具调用是一个关键问题。为此，研究人员引入了初始推理引导机制。在模型接收到用户查询后，初始推理引导机制会在模型开始自由思考之前，嵌入一系列精心设计的引导文本。这些引导文本从智能体的第一人称视角出发，明确告诉模型它具备与外部环境交互的能力。例如，引导文本会说明：“我可以通过生成 Python 代码与外部工具进行交互，以获取实时信息或进行复杂计算。” 通过这种方式，模型在思考过程中会更加自然地生成代码，并将其视为解决问题的自然延伸。

这种引导机制并非简单的提示工程，而是一种深层次的认知塑造。它让模型在推理过程中主动寻求外部资源的支持，而不是局限于自身的知识和能力。这种主动性和适应性是 X-Master 能够在复杂任务中表现出色的重要原因。它有效地解决了现有模型在工具使用上的局限性，使模型能够更充分地发挥其潜能，从而在科学发现等复杂任务中取得更好的成果。

X-Masters：Scatter-Stack 工作流

单点突破还不够。科学发现需要 “平行宇宙” 式的探索 —— 于是把 1 个 X-Master 拆成 4 个角色。

如果说 X-Master 是一个会写代码的科学家，那么 X-Masters 就是一支由科学家、批评家、作家、评委组成的 “智能体联盟”。

X-Masters 全景解读：一种“分散-再聚合”的智能体工作流。该工作流把 X-Master 拆分成不同角色，在推理阶段层层把关，提升最终答案质量。流程分四步： 1. 解题者：一次性产出 5 份初版答案； 2. 评审者：对每份答案打分并给出修改意见； 3. 重写者：综合 5 份答案与意见，再生成 5 份新版答案； 4. 决策者：从新版中挑出最优解

四阶段角色

为了进一步提升 X-Master 的推理能力，研究人员设计了 X-Masters，这是一种基于分散 - 堆叠过程的智能体工作流。X-Masters 通过多个智能体的协作，系统性地扩展推理的广度和深度。整个工作流分为四个阶段：

1. 求解器（Solver） ：在这一阶段，多个 Solver 智能体并行工作，生成多样化的初始解决方案。每个 Solver 都基于 X-Master 的工具增强型推理机制，独立思考并提出自己的解决方案。这种并行处理方式能够快速探索问题的不同侧面，增加找到有效解决方案的可能性。

2. 批评家（Critic） ：生成初始解决方案后，Critic 智能体对这些方案进行评估和改进。Critic 会仔细检查每个解决方案的逻辑一致性、事实准确性以及与问题要求的匹配度。对于存在缺陷的方案，Critic 会提出具体的改进建议，例如补充遗漏的关键步骤或修正错误的假设。

3. 改写者（Rewriter） ：在这一阶段，Rewriter 智能体会综合所有经过初步评估的解决方案，生成新的五个优化方案。Rewriter 的目标是整合不同方案的优点，消除冗余和矛盾，形成更加全面和深入的解决方案。例如，如果一个方案在逻辑推理上表现突出，而另一个方案在数据准确性上更有优势，Rewriter 会尝试将两者的优势结合起来。

4. 选择器（Selector） ：最后，Selector 智能体对所有优化后的方案进行全面比较，选择一个最符合逻辑和事实的最佳答案作为最终输出。Selector 的决策基于一系列评估指标，包括解决方案的完整性、逻辑连贯性、与问题的匹配度以及对工具使用结果的合理利用等。

这种分散和堆叠相结合的设计使得 X-Masters 能够在广度和深度上同时发力。分散阶段通过多智能体的并行探索增加了解决方案的多样性，而堆叠阶段则通过迭代改进和综合评估提升了解决方案的质量。例如，在处理一个复杂的跨学科科学问题时，求解器智能体可以从不同学科角度提出多种解决方案，批评家对其进行评估和改进，改写者整合优化，最后选择器选出最佳答案。这种协作模式能够充分发挥各智能体的优势，提高解决复杂科学问题的效率和准确性。

为了直观展示 X-Masters 在 HLE 八个学科上的细粒度表现，把同一套测试集喂给 DeepSeek-R1-0528 与 X-Masters，并绘制出学科级柱状图。下图中，每一条柱形不仅代表该科的平均准确率，也映射了模型在跨学科推理上的“长短板”——哪一科是强项、哪一科仍需加料，一目了然。

DeepSeek-R1-0528 与 X-Masters 在 HLE 各分项的表现对比

为了进一步验证 X-Masters 在生物医学场景中的“硬实力”，我们把它放到一个更专精的考场——TRQA-lit（choice）基准。该基准聚焦生物研究中的高阶任务，如治疗靶点识别和机制分析，共 172 道选择题。下图展示了 X-Masters 与当前主流模型的对比结果：在完全零改动的前提下，X-Masters 以 67.4% 的准确率刷新 SOTA，领先第二名 OriGene 5 个百分点，证明其工具增强推理在垂直学科同样游刃有余。

在生物领域基准测试 TRQA-lit（选择题）中，X-Masters 与其他模型的表现对比显示：无需任何额外调整，X-Masters 便在该基准上达到了当前最佳水平

生物与医学向来是 HLE 的重灾区，题目往往横跨分子机制、临床指标与公共健康政策。所以单独把这一学科的 500 + 道题拎出来做切片分析，结果如下图：X-Masters 在生物/医学赛道上的领先优势尤为明显，再次证明了工具增强型推理在处理高噪声、高知识密度文本时的不可替代性。

HLE 生物/医学类题目得分表现

与 RL rollouts 的映射

X-Masters 的分散 - 堆叠架构与强化学习中的 rollouts 概念具有相似之处。分散阶段类似于 rollouts 的探索过程，多个智能体通过并行探索不同的推理路径，模拟出多种可能的解决方案。这种方式能够有效避免过早收敛到一个可能次优的单一思路。堆叠阶段则类似于强化学习中的聚合和利用步骤，智能体对所有并行探索的结果进行综合分析，提炼出最有价值的解决方案。例如，在分散阶段，多个智能体尝试不同的推理路径，探索各种可能的解决方案；在堆叠阶段，智能体对这些探索结果进行整合和优化，最终得到一个高质量的解决方案。这种探索与利用相结合的机制有助于智能体在复杂问题中找到更优的解决方案，提高其在科学发现等领域的应用效果。

将“X-Masters智能体工作流”与DeepSeek-R1-0528相比，各阶段的准确率呈递进式提升。性能增长主要来自工具增强和推理阶段算力投入

智能体工作流中散射与堆叠特征的消融实验

实验

设置（超参数 / 数据）

在实验中，研究人员使用 DeepSeek-R1-0528 作为 X-Master 的推理模型。为了评估 X-Masters 的性能，他们选择了 HLE 的文本子集，共包含 2,518 个样本。这些样本涵盖了多个学科领域，能够全面测试智能体的知识广度和推理深度。评估方法是运行 X-Masters 工作流三次，并取平均分数作为最终结果。为了确保评估的客观性，研究人员使用了 o3-mini 作为评判模型。基线系统包括当前在 HLE 上表现领先的智能体和先进模型，如 OpenAI 的 Deep Research 和 Google DeepMind 的 Deep Research。这些基线系统的成绩数据来源于已有的排行榜，为 X-Masters 的性能提供了重要的对比基准。

主结果（HLE 32.1%）

X-Masters 在 HLE 上取得了令人兴奋的成绩，其最高分数达到了 32.1%。这一成绩不仅超越了 OpenAI 和 Google DeepMind 的产品（分别为 26.6% 和 26.9%），还首次突破了 30% 的大关，创造了新的世界纪录。这表明 X-Masters 在解决复杂科学问题方面具有显著的优势。例如，在数学领域，X-Masters 能够快速准确地解决复杂的数学问题；在生物医学领域，它能够深入理解生物医学文献并进行推理分析。这种跨学科的广泛应用能力使其在科学研究中具有巨大的潜力。

重写前后的答案正确率对比显示：重写步骤显著提升了全部 5 个答案均正确的概率

消融（阶段增益）

研究者用了 4 个阶段把准确率从 17.7% 拉到 32.1%，但最关键的 5.6% 来自一个容易被忽视的步骤 —— 改写器（Rewriter）。

以下是一张 “阶段增益” 信息图，直观展示了各阶段对准确率的提升效果：

从实验结果可以看出，X-Masters 在各个学科领域上的表现存在一定差异。例如，在计算机科学领域，其准确率相对较高，而在人文社科领域，准确率相对较低。这可能是因为计算机科学领域的题目更侧重于逻辑推理和算法知识，这些是 X-Master 所擅长的；而人文社科领域的问题往往涉及更复杂的社会文化和历史背景，需要更深入的理解和推理。针对这些差异，研究人员可以进一步优化 X-Master 在特定领域的知识和推理能力，提高其整体性能。

技术实现

1. 关键超参与基线配置实验全部基于 DeepSeek-R1-0528（temperature=0.6，max_tokens=64k）。HLE 文本子集共 2,518 题，每题运行 X-Masters 工作流 3 次取平均；官方采用 o3-mini 作裁判，确保与排行榜一致。Solver 阶段统计显示，平均单题调用外部工具 3 次，足证工具链使用率之高。

2. 开源与再现实验整套推理代码在 GitHub 开源（地址见文末参考）。目前暂时还未上传代码。

3. 真实场景韧性示例论文用 3 个实例展示“工具失灵”时的自我修复能力：Case 1： 502 网关错误真实场景永远比基准测试更复杂。下面的案例里，X-Master 第一次尝试用 arXiv 解析器抓取作者单位时，工具返回了 502 错误。它并未像传统流水线那样直接报错退出，而是把错误信息当“环境反馈”写进上下文，立刻换用搜索引擎二次定位作者主页，最终交叉验证出正确 affiliation。整个过程被完整记录在下方的交互轨迹中。

【案例 1】当工具表现不如预期时，X-Master 会灵活调整用法；并通过交叉验证，确保答案准确无误

Case 2：返回格式跑偏当工具返回了格式完全跑偏的 HTML 片段，大多数模型会“懵圈”。X-Master 则把异常内容当成新的观测变量，自动调整正则表达式并尝试多种解析策略，直至抽出可用的答案片段。下图的 Case 2 展示了这一自我修复的完整循环：错误触发 → 策略切换 → 二次解析 → 结果验证。

【案例 2】当工具返回的内容与预期不符时，X-Master 会灵活切换多种策略，顺畅应对

Case 3：计算结果与预期不符当光谱辐射度计算值与给定值相差 5.5 倍时，X-Master 并未直接采信任一结果，而是：

1. 把差异视为潜在误差信号；

2. 反向推导普朗克公式，重新求解温度；

3. 用新的温度二次代入验证，确认实测值吻合后才锁定“温度错误”结论。整个“怀疑—重算—验证”循环完全由 Python 脚本驱动，不留人为盲区。

【案例 3】X-Master 先完成计算，一旦遇到不匹配的结果就调整策略，最后用写好的 Python 代码验证最终答案

总结：把“科学”拆成代码，把“协作”做成流程

当我看完 X-Master 的这篇论文时，我最大的感受是：它把“做科研”这件事拆成了两条极其清晰的工程路线——

1. 把思考翻译成代码；

（我曾在社群中说过，formal language 的精度是 NL 无法比的，它应当成为 Agent 介于 ① 对人具有可解释性体验，又 ② 对机器保障推理精度之间的优选）

2. 把单点突破扩展成多人协作的流水线。

（核心要点是对上下文的控制力，对 Agent 组织的管理能力）

先说第一条。传统大模型遇到知识盲区，要么“硬猜”，要么“拒绝”；导致要么幻觉，要么卡壳。X-Master 的做法是：把“我不知道”翻译成一段可执行的 Python，让外部工具替它把盲区补上。于是，模型就不只是一个只会聊天的知识库，而成了一个会写脚本、会调 API、会跑实验的“研究生”。这一步看似简单，却把 LLM 的“语言能力”无缝嫁接到了现实世界的“工具能力”上——就像给只会背公式的学生配了一套实验器材，立刻能把纸面知识变成可验证的数据。

再说第二条。X-Masters 把单体的 X-Master 复制成四个角色：Solver、Critic、Rewriter、Selector。一个负责“发散”，一个负责“挑刺”，一个负责“整合”，一个负责“拍板”。四步下来，准确率从 17.7% 一路提到 32.1%，其中最关键的一步是 Rewriter——把五个版本的答案再回炉重造，而不是简单投票。这让我想起学术圈的“同行评议”：一篇论文先由多位审稿人各自提意见，再由作者综合修改，最后被程序委员会决定录用与否。X-Masters 用代码把这套流程自动化了，于是“人类科研的集体智慧”变成了“模型推理的并行计算”。

而且，这两条路线都不依赖闭门造车的科技：代码-工具交互用的是最普通的 Python REPL(Read-Eval-Print-Loop)；多智能体协作用的是最朴素的“角色-批处理”。真正难的是把这两件“普通事”组合成一个可复现、可扩展的框架，并在一个公认的硬基准（HLE）上跑出第一名。它提醒我们：AI 要真正“做科学”，不一定需要更大的模型，而是需要更聪明的系统级设计——把语言、工具、流程拼成一条能自我纠错、自我进化的流水线。

读完论文不禁联想到：如果今天的科研助理可以把查文献、跑模拟、写报告都写成脚本，那么明天的科研主脑或许就能把“提出假设—验证—修正”整个循环也写成一段可迭代的程序。X-Master 没有承诺“AI 将替代科学家”，但它示范了一种可能：让科学家把注意力从“如何调参”转向“如何设计流程”，把重复劳动交给代码，把真正需要人类直觉和创造力的部分留给自己。人需要承担核心的“思考”，人需要思考如何思考（元思考）。这也许才是人机交互、协作共创的正确分工。

把科研写成 Python：X-Master 用代码拆碎“人类最后考试”

X-Master 速览：

HLE 基准与现有局限

X-Master：TAR 架构

代码即交互语言

初始推理引导机制

X-Masters：Scatter-Stack 工作流

四阶段角色

与 RL rollouts 的映射

实验

设置（超参数 / 数据）

主结果（HLE 32.1%）

消融（阶段增益）

技术实现

同类研究对比

工具增强型 LLM

智能体工作流

总结：把“科学”拆成代码，把“协作”做成流程

相关资讯

Google Gen AI Python SDK：完全使用指南

几个开发大模型应用常用的 Python 库

使用 Yolo-NAS 轻松进行对象检测