AI在线 AI在线

AI学会“无师自通”?AZR让模型左右互搏,越打越聪明!

一项名为Absolute Zero Reasoner(AZR)的创新项目近日引发广泛关注。 该项目通过一种全新的“绝对零点”训练范式,让大型语言模型(LLM)能够自主提出问题、编写代码、运行验证,并通过自我博弈(self-play)循环提升编程与数学能力。 基于Qwen2.5-7B模型的测试数据显示,AZR在编程能力上提升了5分,数学能力提升了15.2分(满分100分),展现了其在AI自进化领域的巨大潜力。

一项名为Absolute Zero Reasoner(AZR)的创新项目近日引发广泛关注。该项目通过一种全新的“绝对零点”训练范式,让大型语言模型(LLM)能够自主提出问题、编写代码、运行验证,并通过自我博弈(self-play)循环提升编程与数学能力。基于Qwen2.5-7B模型的测试数据显示,AZR在编程能力上提升了5分,数学能力提升了15.2分(满分100分),展现了其在AI自进化领域的巨大潜力。

image.png

核心机制:强化自博弈与零数据训练

AZR的核心创新在于其强化学习验证推理(RLVR)机制。模型以提出者与解决者的双重角色运作:提出者生成具有挑战性的代码推理任务,解决者则编写代码并通过代码执行器验证答案的正确性。这一过程无需任何外部人工标注数据,完全依赖模型自身的迭代与反馈。AIbase了解到,AZR通过动态调整任务难度,持续优化其训练课程(curriculum),从而实现数学与编程能力的显著提升。社交媒体上,开发者对这一“零数据”训练范式的效率与成果表示惊叹,认为其为AI模型的自进化开辟了新路径。

性能表现:超越传统模型

根据官方数据,AZR在多个基准测试中展现了优异表现。基于Qwen2.5-7B模型的测试表明,其在HumanEval(编程)和MATH(数学)等任务上的性能超越了同类“零数据”模型,整体表现达到开源模型的顶尖水平(state-of-the-art, SoTA)。具体而言,AZR在编程任务中提升了5%的得分,在数学任务中提升了15.2%,远超传统依赖大规模标注数据的模型。AIbase编辑团队认为,AZR的成功得益于其结合代码执行器进行实时验证,确保了推理过程的准确性和可靠性。

image.png

硬件需求:高显存成本

尽管AZR在性能上表现卓越,但其训练对硬件资源的需求较高。官方数据显示,运行不同规模的模型需要以下GPU配置:

3B参数模型:2块80GB GPU;

7B/8B参数模型:4块80GB GPU;

14B参数模型:8块80GB GPU。

这一高显存需求可能对普通开发者构成一定门槛,但对于具备高性能计算资源的研究机构或企业而言,AZR的高效自进化能力无疑具有巨大吸引力。社交媒体讨论指出,优化显存使用或开发更轻量化的模型将是AZR未来普及的关键。

AI自进化的未来方向

Absolute Zero Reasoner的发布标志着AI模型从依赖外部数据向自我驱动进化的重大转变。AIbase编辑团队认为,AZR的“零数据”范式不仅降低了数据收集的成本,还为模型在编程、数学等复杂推理任务中的应用提供了新思路。未来,随着硬件优化的推进和多领域任务的扩展,AZR有望进一步提升性能,成为AI自进化领域的标杆项目。

项目地址:https://github.com/LeapLabTHU/Absolute-Zero-Reasoner

相关资讯

谷歌联合创始人布林:工程师们用 AI 编程还不够积极

谷歌联合创始人谢尔盖・布林(Sergey Brin)表示,谷歌工程师并没有像他认为的那样经常使用人工智能。图源 Pexels布林本周在洛杉矶举行的“All-In”峰会上与企业家大卫・弗里德伯格(David Friedberg)进行了在线对话时发表了上述言论。布林在峰会现场罕见露面,讨论了 AI 的“令人兴奋”的进步。“作为一名计算机科学家,我从未见过像过去几年所取得的进展一样令人兴奋的事情,”布林说。布林表示,他目前几乎每天都在谷歌。他还称赞了 AI 的多方面能力,特别是在编程方面。布林称:“从头开始编写代码感觉非
9/12/2024 9:58:59 PM
远洋

OpenAI内部模型曝光!编程能力跻身全球Top50程序员,年底不再有人类对手

除了o1/o3,OpenAI另一个尚未公开的内部推理模型曝光了。 爆料者正是CEO奥特曼本人。 据他透露,与全球顶尖程序员相比,当前这一内部模型的编程能力已达Top50,甚至今年年底将排名第一。
2/10/2025 9:20:00 AM
量子位

Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友

公认的编程开发能力第一! Claude 3.7 Sonnet刚刚登顶WebDev竞技场榜首。 大幅甩第二名100多分,在榜单前十的其它相邻模型分差仅为几分、几十分的情况下。
2/28/2025 9:00:00 AM
量子位
  • 1