AI在线 AI在线

破解300年数学难题,智能体大突破!谷歌发布超强AI Agent

今天凌晨,谷歌Deepmind在官网发布了,用于设计高级算法的编程AI Agent——AlphaEvolve。 AlphaEvolve与谷歌的大模型Gemini实现深度集成,用于自动评估通用算法的发现与优化,可以帮助开发人员快速设计出最好、高效的矩阵算法。 简单来说,大模型擅长生成各种想法和算法,但是没人知道这些到底行不行,而AlphaEvolve相当于“质检员”,能够按照特定标准来衡量这些想法是否可行。

今天凌晨,谷歌Deepmind在官网发布了,用于设计高级算法的编程AI Agent——AlphaEvolve。

AlphaEvolve与谷歌的大模型Gemini实现深度集成,用于自动评估通用算法的发现与优化,可以帮助开发人员快速设计出最好、高效的矩阵算法。

简单来说,大模型擅长生成各种想法和算法,但是没人知道这些到底行不行,而AlphaEvolve相当于“质检员”,能够按照特定标准来衡量这些想法是否可行。

图片

AlphaEvolve超强能力

谷歌在展示AlphaEvolve的能力时,就特意找了一道300多年的数学难题——亲吻数问题。

这道题的历史最早可以追溯到1694年,牛顿还和别人辩论、研究过。其难点在于给定维度的空间中,最多可以有多少个相同大小的球体同时接触一个中心球体,这些球体之间不发生重叠。

图片

而AlphaEvolve发现了由593个外层球体组成的结构型,并在11维空间中建立了新的下界,超越之前数学家们创造的记录。

AlphaEvolve还能为复杂的数学问题提出新的解决方法。基于极简代码框架,AlphaEvolve设计了一种基于梯度的新型优化程序的诸多组件,并发现了多种用于矩阵乘法的新算法。

破解300年数学难题,智能体大突破!谷歌发布超强AI Agent

AlphaEvolve找到了一种用于4x4复值矩阵乘法的算法,该算法仅需48次标量乘法,改进了Strassen在1969年提出的算法,后者此前被认为是该场景下的最佳算法。这一发现表明,与谷歌之前专注于矩阵乘法算法的研究成果AlphaTensor相比,取得了重大进展。

此外,谷歌使用AlphaEvolve来增强大模型的训练和推理。AlphaEvolve将大规模矩阵乘法运算拆解为更易于处理的子问题,使Gemini模型架构中的核心计算效率提升了23%,整体训练时间缩短了1%,节省大量成本。

图片

AlphaEvolve还能对GPU底层指令进行优化。这是一个极其复杂的领域,通常编译器已对其进行了深度优化,所以,人类工程师一般不会直接对其进行修改。

AlphaEvolve实现了基于Transformer的人工智能模型中FlashAttention核心计算最高达32.5%的加速。这类优化有助于专家精准定位性能瓶颈,并能轻松地将优化成果整合到代码库中,极大提高了工作效率。

AlphaEvolve架构简单介绍

任务定义与评估模块是AlphaEvolve的核心之一,主要负责明确用户的需求,包括评估标准、初始解决方案以及背景知识。通过一个自动化的评估机制来衡量生成的解决方案的质量,这一机制以函数的形式存在,将解决方案映射到一组标量评估指标上。

这些指标通常是最大化的目标,例如,在数学问题中,如果目标是找到满足特定属性的最大可能图,评估函数将调用进化代码生成图,检查属性是否成立,然后返回图的大小作为得分。

图片

大模型集成与提示采样模块负责构建上下文提示,这些提示包括明确的上下文信息,例如,问题的详细描述、方程式、代码片段或相关文献;随机格式化,通过概率分布提供人类编写的替代方案以增加多样性;渲染的评估结果,包括程序、执行结果以及评估函数分配的分数;

以及元提示进化,由大模型本身在额外的提示生成步骤中建议的指令和上下文,这些内容与解决方案程序在单独的数据库中共同进化,为大模型提供了丰富的信息,使其能够生成更准确和有效的代码修改建议。

创造性生成与代码修改是AlphaEvolve另外一个核心模块,主要利用大模型的能力来生成代码修改建议。这些大模型能够处理丰富的上下文信息,并根据过去的尝试和想法提出新的改进方案。

当AlphaEvolve要求大模型修改现有代码时,它会请求以特定格式的差异块提供更改,这种格式允许对代码的特定部分进行针对性的更新。在某些情况下,如果代码非常短,或者需要完全重写,AlphaEvolve可以配置为直接输出整个代码块,而不是使用差异格式。

图片

评估与反馈模块负责跟踪AlphaEvolve的进展,并选择在后续代中传播哪些想法。每个由大模型提出的新解决方案都会被自动评估,这一过程本质上是简单地在生成的解决方案上执行用户提供的评估函数。

AlphaEvolve支持一些可选机制,使评估更加灵活和高效,例如,评估级联,用户可以指定一系列难度递增的测试用例,只有在所有早期阶段都取得足够有希望的结果时,新解决方案才会进入下一个阶段;

大模型生成的反馈,用于评估那些难以在用户提供的评估函数ℎ中精确捕捉的解决方案特性;以及并行化评估,通过异步调用评估集群来分配这项工作,从而提高评估效率。

进化与数据库管理负责存储和管理在进化过程中生成的解决方案。这些解决方案存储在一个进化数据库中,其主要目标是在后续代中最佳地重新出现先前探索的想法。设计这种数据库的一个关键挑战是平衡探索和利用,以持续改进最佳程序,同时保持多样性以鼓励整个搜索空间的探索。

AlphaEvolve的进化数据库实现了一种算法,该算法受到MAP精英算法和基于岛屿的种群模型的启发。

图片

分布式计算管道模块使AlphaEvolve能够作为一个异步计算管道运行。每个计算在等待另一个尚未完成的计算结果时都会阻塞。整个管道针对吞吐量进行了优化,而不是任何特定计算的速度,以最大化在特定总体计算预算内可以提出和评估的想法数量。

图片

目前,有兴趣的小伙伴可以去谷歌Deepmind官网申请使用AlphaEvolve,尤其是对于科研、数学、设计领域的小伙伴帮助很大。

相关资讯

不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

仅通过强化学习,就能超越DeepSeek! 上海AI Lab提出了基于结果奖励的强化学习新范式——从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。 团队发现,当前大模型数学推理任务面临”三重门”困局:稀疏奖励困境:最终答案对错的二元反馈,使复杂推理的优化变得困难局部正确陷阱:长思维链中部分正确步骤反而可能误导模型学习规模依赖魔咒:传统蒸馏方法迫使研究者陷入”参数规模军备竞赛”因此,研究团队重新审视了当前基于结果奖励的强化学习算法,经过严格的理论推导与证明,重新设计了一个新的结果奖励强化学习算法,并在这个过程中得出了三点重要结论:对于正样本:在二元反馈环境下,通过最佳轨迹采样(BoN)的行为克隆即可学习最优策略对于负样本:需要使用奖励重塑来维护策略优化目标的一致性对于长序列:不同的序列部分对结果的贡献不同,因此需要更细粒度的奖励分配函数,这个函数可以通过结果奖励习得通俗来说,就是通过对正确样本模仿学习,错误样本偏好学习,关键步骤重点学习,无需依赖超大规模的模型(例如DeepSeek-R1)进行蒸馏,仅通过强化学习即可达到惊人的效果。
2/17/2025 9:33:00 AM
量子位

免手术AI读心术新突破!Meta脑机接口研究惊呆网友:能边睡边玩手机发帖了??

新年伊始,Meta脑机接口研究传来新进展——语言模型加持下,无需动脑部手术,脑机接口实现了当前非侵入式方式(MEG)最准确的结果。 简单来说,仅利用AI模型Brain2Qwerty,他们实现了对脑电图(EEG)或脑磁图(MEG)电信号的高度解析。 具体效果如何呢?
2/17/2025 10:08:00 AM
量子位

老友记搬沙发难题终结,60年数学谜题破解!119页论文惊人证明:有最优解

臭名昭著的「搬沙发」难题,已经困扰了数学家们60年。 《老友记》经典的一幕,就是Ross找人帮忙搬新沙发时,无论如何也无法使沙发顺利通过拐角。 Ross大喊「Pivot!
2/18/2025 9:20:00 AM
新智元
  • 1