谷歌AlphaEvolve太香了，陶哲轩甚至发了篇论文，启发数学新构造

著名数学家陶哲轩发论文了，除了陶大神，论文作者还包括 Google DeepMind 高级研究工程师 BOGDAN GEORGIEV 等人。论文展示了 AlphaEvolve 如何作为一种工具，自主发现新的数学构造，并推动人们对长期未解数学难题的理解。 AlphaEvolve 是谷歌在今年 5 月发布的一项研究，一个由 LLMs 驱动的革命性进化编码智能体。

著名数学家陶哲轩发论文了，除了陶大神，论文作者还包括 Google DeepMind 高级研究工程师 BOGDAN GEORGIEV 等人。

论文展示了 AlphaEvolve 如何作为一种工具，自主发现新的数学构造，并推动人们对长期未解数学难题的理解。

AlphaEvolve 是谷歌在今年 5 月发布的一项研究，一个由 LLMs 驱动的革命性进化编码智能体。它可以发现极其复杂的算法，甚至跨越数百行代码，远超简单函数的范畴。

此前，陶哲轩多次表示，他一直在和 Google DeepMind 合作，探索 AlphaEvolve 的潜在数学应用。

如今，与此相关的论文也已经发表。

论文地址：https://arxiv.org/pdf/2511.02864v1

接下来我们看论文内容。

计算工具的出现，正在从根本上重塑数学发现的格局，它们能够自主地探索数学空间并生成新的结构。

AlphaEvolve 是这一演化过程中的重要一步，该系统展示了当大语言模型（LLM）与进化计算和严格的自动化评估机制相结合时，它们能够在大规模上发现显式构造，其结果可以达到甚至超越许多长期数学问题中当前已知的最佳界限。

为了展示 AlphaEvolve 广度，研究团队选择了覆盖数学分析、组合数学、几何学与数论的 67 个问题。

在多数任务中，AlphaEvolve 重新发现了已知最佳解，并在若干问题上取得了改进结果。

在部分情况下，AlphaEvolve 甚至能够将针对有限输入值得到的结果泛化为适用于所有输入值的通式。

此外，该研究还将这一方法与 Deep Think 和 AlphaProof 结合，构建了一个更广泛的框架，其中的证明助手与推理系统可以进一步实现自动化证明生成和更深入的数学洞察。

这些结果表明，由大语言模型引导的进化搜索可以自主发现数学构造，补充人类直觉，在某些情况下甚至能匹配或超越现有最佳成果，展示了 AI 系统与数学家之间全新互动方式的潜力。

本文还发现，在许多情况下，除了计算规模之外，为了让 AlphaEvolve 输出与已有文献相当的结果，与传统的数学研究方式相比，它几乎不需要额外开销：平均而言，使用 AlphaEvolve 搭建并准备一个问题的时间通常只需数小时。

本文预计，在没有任何先验知识、信息或代码的情况下，采用传统方法完成同等规模的研究通常会耗费更长的时间。因此，他们将这一研究范式称为大规模建构性数学（constructive mathematics at scale）。

论文还提到，支撑 AlphaEvolve 高效性的一个关键数学洞见在于：它具备同时在多个抽象层面上运行与优化的能力。

该系统不仅能够优化某个数学构造的具体参数，还能进一步优化发现这些构造的算法策略本身。这种元层级进化（meta-level evolution）代表了一种全新的递归形式：优化过程本身，成为了被优化的对象。

举例来说，AlphaEvolve 可能会进化出一个程序，这个程序会使用：

一组启发式规则（heuristics），
一个 SAT 求解器，
一个无收敛保证的二阶优化方法，
或者这些方法的任意组合。

这种分层式的优化方法在 AlphaEvolve 处理复杂数学问题时尤为明显（这些问题通常由用户提出）。系统往往能够为优化过程的不同阶段，自动发现专门化的搜索启发式策略。这种自发形成的阶段性分工与策略优化，与人类数学家在研究与探索中的直觉性思维方式惊人地相似。

值得一提的是，由于篇幅限制，本文没有对每个问题的研究历史进行全面回顾，而是为每个问题提供了相应的参考文献，供读者查阅已有的研究成果。

人工智能与数学发现

人工智能在数学发现领域的崛起，标志着人类在应对数学中最具挑战性问题的方式上迎来了范式转变。近年来的一系列突破性成果展示了 AI 在协助数学家方面的强大能力。例如：

AlphaGeometry 在标准时间限制内解出了 30 道奥赛几何题中的 25 道；
AlphaProof 与 AlphaGeometry 2 在 2024 年国际数学奥林匹克（IMO）中取得银牌成绩，而改进版 Gemini Deep Think 框架在 2025 年 IMO 中更是获得了金牌；
OpenAI 的模型也在同年取得了金牌表现。

除了竞赛表现，AI 也开始在真正意义上实现数学发现。例如：

FunSearch 在 cap set 问题中找到了新解，并提出了更高效的装箱算法；
PatternBoost 推翻了一项存在 30 年的数学猜想；
早期系统如 Graffiti 则以自动生成猜想著称。

此外，还有诸多工作聚焦于辅助数学家寻找数学命题的形式化或非形式化证明。

与这些系统不同，AlphaEvolve 更侧重于探索与发现，使其不仅能够进行数学空间的探索，还能将发现结果结合形式化证明与严谨的数学验证，实现从直觉发现到可验证证明的完整闭环。

进化算法寻找数学构造

从本质上讲，AlphaEvolve 是一种高度复杂的搜索算法。为了理解它的设计理念，我们可以从一个熟悉的概念开始。举个例子：假设我们要解决这样一个问题：在 50 个顶点的图中，找到一个既没有三角形、又没有长度为 4 的环，并且边数尽可能多的图。

一种经典做法是：从一个随机生成的图开始；然后反复进行微小的调整（例如，添加或删除一条边），以提升其得分，在这个例子中，得分可以定义为边的数量，但若图中出现三角形或 4 环则会被惩罚；如此继续，直到无法再进一步改进为止。

这种不断优化、逐步逼近最优解的思想，正是 AlphaEvolve 复杂进化机制的基础。

第一个关键思想来自 AlphaEvolve 的前身 FunSearch 及其重实现版本：该思想的核心在于 —— 不在图的空间中进行局部搜索，而是在生成这些图的 Python 程序空间中进行搜索。

具体来说，本文从一个简单的程序出发，然后使用 LLM 生成许多与之相似但略有差异的程序（即突变体）。

接着，运行每个程序，并对其生成的图进行评估打分。

一个自然的问题是：这种做法为什么会有效？毕竟，一次 LLM 调用的计算代价通常要远高于简单地添加一条边或评估一个图。这意味着，这种方法在探索候选解的数量上往往比传统局部搜索少成千上万倍。

然而，这种在程序空间中搜索恰恰能带来强大的优势。许多优美的数学对象，都可以用简短而优雅的程序来生成。即便某个问题只有一个唯一的最优构造，也可能存在多种自然的程序实现方式来生成它。相反，那些数量庞大、形态杂乱的局部最优图，通常并不对应任何简单的程序描述。

因此，在程序空间中搜索相当于引入了一种简洁性与结构性先验，帮助算法避开复杂的局部最优点，朝着优雅且往往是最优的解前进。

当然，在某些情况下，如果一个问题的最优解无法用简单的程序描述，而必须依靠启发式方法才能找到，AlphaEvolve 在这类任务中同样表现出色。

尽管如此，对于那些评分函数计算代价极低的问题，传统方法凭借其纯粹的暴力计算优势依然难以被超越。为了解决这一问题，本文提出了一个新的思路：

与其让 AlphaEvolve 直接进化出生成构造的程序，不如让它进化出搜索构造的程序。

这就是本文所称的 AlphaEvolve 的搜索模式。在所有以找到高质量构造为目标、而不太关注其可解释性和泛化性的任务中，本文都采用了这种模式。

在这种设定下，AlphaEvolve 种群中的每个程序都是一种搜索启发式算法。每个程序都会被分配一个固定的时间预算（例如 100 秒），并被要求在这段时间内找到尽可能好的构造。该启发式算法的得分，即为它在限定时间内所找到的最佳对象的得分。

这种机制有效地解决了计算速度的不平衡问题：虽然生成一个新的搜索启发式算法需要一次昂贵的 LLM 调用，但这次调用可以触发一场极为廉价的大规模计算 —— 因为这个新生成的启发式程序能够在自身的运行过程中，独立地探索数百万个候选构造。

研究人员强调，搜索过程不必每次都从零开始。相反，评估一种新启发式算法的标准，是看它能否改进迄今为止找到的最佳构造。因此，该方法实际上是在进化一个由「改进器」函数组成的群体，从而创造了一个动态的、自适应的搜索过程。

在初始阶段，执行广泛探索性搜索的启发式算法可能更受青睐；而当接近一个好的解决方案时，执行巧妙的、针对特定问题进行优化的启发式算法则可能占据主导。最终的结果通常是一个由专门的启发式算法组成的序列，当它们串联起来时，便能产生一个达到顶尖水平的构造。

这种方法的缺点是搜索过程可能会损失可解释性，但它所发现的最终对象仍然是一个定义明确的数学实体，可供后续研究。事实证明，这种新增机制似乎对更困难的问题特别有用，因为在这些问题上，单一的搜索函数可能无法自行发现一个好的解决方案。

从实例到公式的泛化：泛化器模式

上述搜索模式擅长为固定规模的问题（例如，𝑛 = 11 的堆叠问题）寻找构造。除此之外，研究人员还试验了一种更具挑战性的「泛化器模式」。

在这种模式下，系统被要求 AlphaEvolve 编写一个能解决任意给定 𝑛 值的程序。该程序的评估基于其在一系列 𝑛 值上的表现。其目标是让 AlphaEvolve 能够通过观察其（通常是）为较小的 𝑛 找到的最优解，来发现一种模式，并将其泛化为适用于所有 𝑛 的构造。

这种模式更具挑战性，但它也产生了一些最令人兴奋的成果。在一个案例中，AlphaEvolve 为尼科迪姆问题（Nikodym problem）（见问题 6.1）提出的构造启发了第三作者撰写一篇新论文。

另一方面，当使用搜索模式时，进化出的程序不容易被解释。尽管如此，最终的构造本身是可以被分析的。在算术挂谷问题（arithmetic Kakeya problem）（问题 6.30）的案例中，这些构造启发了第三作者的另一篇论文。

构建由多种 AI 工具组成的流水线

更引人注目的是，对于有限域挂谷问题（参见问题 6.1），AlphaEvolve 发现了一种有趣的通用构造。当这个程序化解决方案被输入给名为 Deep Think 的智能体时，该智能体成功推导出了其正确性证明及其规模的闭式公式。

随后，这个证明在 Lean 证明助手中使用另一个 AI 工具 AlphaProof 进行了完全的形式化。

这个结合了模式发现（AlphaEvolve）、符号证明生成（Deep Think）和形式化验证（AlphaProof）的工作流，展示了专业化 AI 系统如何集成的具体范例。它揭示了一种未来潜在的方法论：通过结合使用多种 AI 工具（全自动或半自动），协助完成从模型建议的经验观察模式到经过形式化验证的数学结果的整个过程。

局限性

研究人员还指出，尽管 AlphaEvolve 擅长解决那些可以清晰表述为优化一个适合「爬山」的平滑评分函数的问题，但在其他情况下它有时会遇到困难。特别是，研究中遇到了几个 AlphaEvolve 未能达到最优或接近最优结果的实例，这些案例也会在下文报告。

总体而言，作者发现 AlphaEvolve 在大规模应用于一系列广泛且松散相关的问题（例如，堆叠问题或森多夫猜想及其变体）时最为有效。

论文第 6 节详细介绍了使用这种方法发现的新数学结果，以及研究中发现的 AlphaEvolve 未能找到先前已知最佳构造的所有示例。作者希望这项工作不仅能为这些特定问题提供新的见解，还能激励其他科学家探索如何将这些工具应用于他们自己的研究领域。

关键见解

陶哲轩等人在探索 AlphaEvolve 的过程产出了几项关键见解。

关键的系统设计与交互组件

验证器的设计至关重要：它显著影响系统的性能和所发现结果的质量。例如，优化器有时会更倾向于那些希望避免的、更稳定（平凡）的解。因此，设计一个巧妙的验证器来避免这种行为，是发现新结果的关键。

连续损失函数的优势：在某些情况下，采用连续（而非离散）损失函数被证明是指导进化搜索过程的更有效策略。以问题 6.54 为例，评分函数本可以被设计为计算配置中接触圆柱体的数量（非法配置则为 -∞）。然而，通过观察一个依赖于距离的连续评分函数，研究团队实现了一个更成功、更快速的优化过程。

提示与人类专家的决定性作用：提示中给出的建议以及提示者的经验是另一个重要组成部分。研究人员发现，随着尝试次数的增多，他们越发懂得如何向 AlphaEvolve 提问。例如，与直接尝试寻找构造相比，在「搜索模式」下进行提示，能产生更高效的程序和更好的结果。

此外，在作为特定问题领域专家的用户手中，AlphaEvolve 的表现总是远胜于非领域专家的用户。提示中给予 AlphaEvolve 的专家建议对最终构造的质量有着重大影响，因为 AlphaEvolve 总是会试图充分利用这些建议，同时保留其要点。研究强调，人类的专业知识与 AlphaEvolve 的计算能力相结合，才能共同带来最佳的整体结果。

实验过程中的重要观察

在实验过程中，研究团队还观察到了一些值得注意的现象，这些现象揭示了系统的行为模式和潜力。

欺骗现象：系统有时会寻找问题设置中的漏洞或利用人为因素，而不是找到真正的解决方案。例如，当用离散版本逼近全局约束（如正性）时，会出现有漏洞的验证器 (leaky verifier)，或者系统会利用对廉价模型的不可靠 LLM 查询。这凸显了设计精心且稳健的评估环境的必要性。

少即是多的泛化模式：当系统被提供一套约束更严格的输入或特征时，算法的泛化能力反而得到了提高，这有助于促进发现广泛适用的算法。拥有大量数据并不必然意味着更好的泛化性能。相反，当寻找能够在广泛参数范围内泛化的可解释程序时（如问题 6.29, 6.65, 6.1），研究人员通过仅向 AlphaEvolve 展示 n 值较小时的先前最佳解，限制了它能访问的数据量。这种方法似乎更能鼓励基本思想的涌现。

跨问题训练可显著改善结果：当系统在相关问题或一系列相关问题实例上进行单次训练时，效果会更好。例如，在探索几何问题时，同时处理具有不同点数 n 和维度 d 的配置被证明是非常有效的。一个在特定 (n,d) 对上表现良好的搜索启发式很可能成为其他配对的坚实基础，引导系统走向更普适的原则。

系统能力边界与未来展望

研究发现，AlphaEvolve 擅长发现那些已在当前数学能力范围之内、但尚未被发现的构造。这些构造之所以未被发现，通常是因为需要大量时间和精力来寻找适用于特定问题的标准思想的正确组合。

另一方面，对于那些需要真正新颖、深刻见解才能取得进展的问题，AlphaEvolve 可能不是合适的工具。

展望未来，实现系统更大自主性（例如使 AlphaEvolve 能够选择自己的超参数以动态调整其搜索策略）是重要的一步。

AlphaEvolve 这样的工具未来可用于系统性地评估大类数学界限或猜想的难度。这可能会带来一种新的分类法，允许研究人员半自动地将某些不等式标记为「AlphaEvolve-hard」 (AlphaEvolve 难题)，表明它们对基于 AlphaEvolve 的方法具有抵抗性。

反过来，其他问题则可能被标记为适合通过理论和计算机辅助技术进行进一步攻坚，从而更有效地指导未来的研究工作。

更多细节请参看原论文。

谷歌AlphaEvolve太香了，陶哲轩甚至发了篇论文，启发数学新构造

相关资讯

谷歌 DeepMind 推出 AlphaEvolve:AI 首次打破数学56年纪录，优化自身训练系统

Google DeepMind Launches AlphaEvolve: AI Breaks a 56-Year Record in Mathematics and Optimizes Its Own Training System

谷歌AlphaEvolve发布！Gemini自进化AI破解数学难题，优化芯片与数据中心，训练速度飙升32.5%！