27M参数逆袭千亿大模型！小而美AI正式挑战OpenAI霸权

一个明显的趋势是，AI圈正在上演一场前所未有的"大卫战歌利亚"的逆袭好戏。当所有人都在追逐千亿参数的庞然大物时，一个仅有27M参数的"小不点"却悄然打破了游戏规则。昨天看到一个消息，挺震撼的。

一个明显的趋势是，AI圈正在上演一场前所未有的"大卫战歌利亚"的逆袭好戏。当所有人都在追逐千亿参数的庞然大物时，一个仅有27M参数的"小不点"却悄然打破了游戏规则。

昨天看到一个消息，挺震撼的。一个名为HRM（层级推理模型）的AI模型，用27M参数在ARC-AGI基准测试上达到了40.3%的准确率，而这个成绩，超越了许多参数量是它几千倍的"巨无霸"模型。

更让人意外的是，这个小模型没有使用任何预训练数据，仅仅用1000个训练样本就达到了这个惊人的成绩。相比之下，OpenAI的o3虽然在同一基准上达到了87.5%的准确率，但每个任务的成本高达346,000美元。

什么是ARC-AGI，为什么它如此重要？

ARC-AGI被认为是当前最重要的人工智能基准测试，专门测试AI的抽象推理能力。这个测试由谷歌研究员François Chollet在2019年提出，被誉为"AGI试金石"。

想象一下这样的场景：给你看几个由彩色方格组成的图案，然后让你推断出变换规律，再应用到新的图案上。这听起来简单，但对AI来说却是一个巨大的挑战。人类在这个测试上的表现可以达到98%，但大多数AI模型的表现都惨不忍睹。

为什么这么难？因为这个测试要求的不是记忆力，而是真正的推理能力。它测试的是AI能否从少量例子中快速理解抽象规律，并将其应用到全新的情况中——这正是人类智能的核心特征。

HRM的"双脑"架构：小身材，大智慧

HRM的成功秘诀在于它独特的"双脑"架构设计。就像人脑一样，它分为两个协同工作的模块：

高级模块（H-module）：负责抽象规划，运行在较慢的时间尺度上。它制定策略，设定目标，就像是整个系统的"总指挥"。

低级模块（L-module）：负责具体的计算执行，运行在快速的时间尺度上。它接收高级模块的指令，完成详细的推理步骤。

这种设计的巧妙之处在于"层级收敛"机制：低级模块在每个周期内收敛到一个局部解，然后高级模块整合这个结果，重新设定下一阶段的目标。这样的分工合作避免了传统深度模型容易出现的梯度消失和早期收敛问题。

说实话，第一次看到这个架构时，我想到的是人类解决复杂问题的方式。我们往往先形成一个大致的策略框架，然后在执行过程中不断调整细节。HRM恰恰模拟了这种思维模式。

性能对比：小模型的震撼表现

让我们看看具体的数据对比，这些数字真的很说明问题：

在ARC-AGI基准测试上，27M参数的HRM达到40.3%准确率，而很多千亿参数的大模型表现还不如它。在复杂Sudoku难题上，HRM接近完美表现，而链式思维（CoT）方法的准确率为0%。

更令人震撼的是成本对比。OpenAI的o3模型虽然在ARC-AGI上达到了87.5%的准确率，但每个任务的计算成本高达346,000美元。如果用同样的计算资源训练HRM，可能会得到什么样的结果？

这种成本效益的巨大差异让我想起了芯片行业的发展历程。最初大家都在追求更大的晶体管，后来发现通过优化架构和工艺能够实现更好的性能功耗比。AI领域似乎也正在经历这样的转变。

为什么大模型在抽象推理上表现不佳？

这里有个很有意思的现象：为什么那些在其他任务上表现优异的大模型，在ARC-AGI这样的抽象推理任务上却败给了小模型？

答案可能在于推理方式的根本不同。大多数LLM采用的是"蛮力搜索"策略——通过大规模的试错来找到答案。这就像是用计算器进行算术运算，虽然能得到正确结果，但并不意味着真正理解了数学的逻辑和意义。

HRM采用的是"智能推理"策略。它不是简单地尝试所有可能的组合，而是通过层级架构真正理解问题的结构，然后有针对性地解决问题。这种方法更接近人类的思维模式。

研究人员指出，传统的链式思维（CoT）技术在复杂推理任务上遇到了瓶颈。CoT本质上还是序列化的推理，缺乏真正的层级抽象能力。而HRM的双层架构突破了这个限制。

技术民主化的信号

HRM的成功释放了一个重要信号：AI技术正在走向民主化。不再需要谷歌、OpenAI那样的资源才能训练出有竞争力的模型。一个设计巧妙的小模型，可能比资源密集型的大模型更具实用价值。

这对整个AI生态系统都有深远影响：

对研究者：证明了架构创新比简单的规模扩展更重要，为后续研究指明了新方向。

对开发者：提供了一种资源友好的替代方案，让更多团队有机会部署先进的AI能力。

对用户：意味着未来可能在自己的设备上运行更智能的AI助手，而不依赖云端的大型模型。

挑战与机遇并存

当然，HRM的成功并不意味着大模型就此过时。在某些需要广泛知识储备的任务上，大模型仍然具有明显优势。但HRM的出现确实证明了一个重要观点：真正的智能不在于记住多少信息，而在于如何高效地处理和推理。

这也让我想到人类学习的过程。一个聪明的学生不需要背诵所有的教科书，而是能够掌握思维方法，举一反三。HRM似乎正在朝这个方向发展。

未来的AI发展可能会出现分化：一类是知识型的大模型，专门处理需要大量背景知识的任务；另一类是推理型的小模型，专门解决需要抽象思维的问题。

对AGI发展的启示

HRM的突破对通用人工智能（AGI）的发展路径提供了新的思路。传统观点认为，AGI需要通过不断扩大模型规模来实现。但HRM证明了另一条路径的可能性：通过更聪明的架构设计实现真正的智能。

更重要的是，HRM的层级推理架构具有很好的可解释性。我们可以清楚地看到高级模块是如何制定策略的，低级模块是如何执行的。这种透明性对于构建可信赖的AGI系统至关重要。

从生物学角度看，HRM的双层架构也更接近人脑的工作模式。人脑的前额叶皮层负责抽象规划，而其他区域负责具体执行。这种分工合作的模式可能是实现真正智能的关键。

总的来说，HRM的出现标志着AI研究进入了一个新阶段。规模不再是唯一的追求目标，效率和智能化程度变得同样重要。这种转变对整个行业都是好消息——它意味着创新的机会更多，竞争的门槛更低，技术的普及更快。

谁知道呢，也许下一个改变世界的AI突破，就来自于某个实验室里的"小而美"模型。毕竟，在这个变化莫测的AI时代，小有小的智慧，大有大的力量，关键是找对方向。

27M参数逆袭千亿大模型！小而美AI正式挑战OpenAI霸权

什么是ARC-AGI，为什么它如此重要？

HRM的"双脑"架构：小身材，大智慧

性能对比：小模型的震撼表现

为什么大模型在抽象推理上表现不佳？

技术民主化的信号

挑战与机遇并存

对AGI发展的启示

相关资讯

奥特曼最新AGI断言：人工智能的成本每 12 个月下降约 10 倍，但推动AI能力边界的成本不会变便宜

AI代理、AGI、ASI 和“推理”等人工智能流行术语真正的含义是什么

纽约时报重磅曝料：特朗普任期内将实现AGI，美国政府早知AGI即将降临！