AI在线 AI在线

循环语言模型:提升参数效率的潜在推理新范式

现代大型语言模型(LLM)主要通过显式文本生成方式进行"思考",例如思维链(Chain-of-Thought, CoT),这种方法将推理延迟到训练后阶段,未能充分利用预训练数据。 本文介绍了一种名为Ouro的开源预训练循环语言模型(LoopLM)家族,其命名灵感来自递归的衔尾蛇(Ouroboros),通过三种关键创新将推理能力直接构建到预训练阶段:(1)潜在空间中的迭代计算,(2)用于学习深度分配的熵正则化目标函数,以及(3)扩展到7.7万亿token的训练规模。 核心创新与技术亮点Ouro模型展现了卓越的参数效率,其1.4B和2.6B参数规模的模型性能可以匹配甚至超越12B参数的SOTA模型。

现代大型语言模型(LLM)主要通过显式文本生成方式进行"思考",例如思维链(Chain-of-Thought, CoT),这种方法将推理延迟到训练后阶段,未能充分利用预训练数据。本文介绍了一种名为Ouro的开源预训练循环语言模型(LoopLM)家族,其命名灵感来自递归的衔尾蛇(Ouroboros),通过三种关键创新将推理能力直接构建到预训练阶段:(1)潜在空间中的迭代计算,(2)用于学习深度分配的熵正则化目标函数,以及(3)扩展到7.7万亿token的训练规模。

核心创新与技术亮点

Ouro模型展现了卓越的参数效率,其1.4B和2.6B参数规模的模型性能可以匹配甚至超越12B参数的SOTA模型。这种效率提升主要源于模型的循环架构设计,使得相同的参数可以被重复使用,从而在固定参数预算内实现更深的计算深度。

如上图所示,Ouro模型采用参数共享的循环架构(左),使得1.4B和2.6B参数的模型(红色)能够与更大规模的基线模型相媲美或超越(中、右)。

循环语言模型(LoopLM)架构

LoopLM的核心思想是通过递归地重复应用共享权重的层,在固定参数预算内实现动态计算。与标准Transformer不同,LoopLM将L层Transformer块视为一个可重复应用T次的单元:

复制

这种设计使得计算深度与参数数量解耦,模型可以通过增加递归步数(T)来增强推理能力,而无需增加参数数量。

自适应计算与早退机制

Ouro模型的另一个创新是自适应计算深度分配机制。通过学习的早退门控函数,模型可以根据输入复杂度动态决定需要多少递归步骤:

如上图所示,训练阶段(左),模型应用N个共享权重层进行n次递归步骤。每一步i,退出门预测概率p_i,语言建模头计算任务损失。训练目标结合了所有步骤的期望任务损失与熵正则化项。推理阶段(右),模型可以基于累积分布函数(CDF)提前退出,为简单输入分配更少步骤,为复杂输入分配更多步骤。

熵正则化训练目标

为了让模型学会何时应该退出递归计算,作者设计了一个熵正则化的训练目标:

复制

其中第一项是期望任务损失,第二项是退出步骤分布的熵正则化。与之前工作不同,Ouro采用均匀先验而非几何先验,这使得模型能够在不受偏见的情况下探索所有可能的计算深度。

实验结果与性能分析

参数效率

Ouro模型展现了卓越的参数效率,1.4B参数模型(4次递归)性能可匹配4B标准Transformer,2.6B参数模型可匹配8B标准模型,实现了2-3倍的参数效率提升。

如上图所示,Ouro-Thinking模型在多项数学和科学数据集上与更大规模的基线模型相当或超越。

递归深度与性能关系

研究发现,增加递归步数通常会提高模型性能,但这种提升在达到训练深度(T=4)后会出现饱和。有趣的是,即使在超出训练配置的步数(T>4)时,模型的安全性仍会持续提高,表明迭代精炼过程对安全对齐有积极影响。

知识容量与操作能力

通过控制实验,研究者发现LoopLM的优势不是来自增加的知识存储容量(每参数约2比特,与非循环模型相同),而是来自显著增强的知识操作能力。在需要事实组合和多跳推理的任务上,LoopLM表现出明显优势。

如上图所示,左侧展示了循环模型与标准模型在知识容量上的相似性,而右侧表格展示了循环模型在知识操作任务上的优势。

安全性、忠实性与一致性

安全性

研究表明,随着递归步数的增加,Ouro模型在HEx-PHI基准测试上的有害性降低,这一趋势甚至在超出训练配置的步数(5-8步)时仍然持续。

如上图所示,随着递归步数增加,模型在HEx-PHI上的有害性得分和有害率均显著下降。

推理忠实性

与标准LLM的思维链不同,LoopLM的潜在推理过程与最终答案因果相关。研究者通过在Quora Question Pairs数据集上的实验发现,随着递归深度增加,模型的决策会发生实质性变化,表明内部推理确实影响最终输出。

如上图所示,左侧展示了不同递归步骤中线性探针的ROC AUC,右侧热图显示了不同步骤间预测标签的一致性。这种系统性的不一致表明,模型在递归深化过程中确实在更新其决策。

技术实现细节

训练流程

Ouro模型采用多阶段训练流程,包括预热、稳定训练、CT退火、长上下文训练和中间训练等阶段,总计在7.7万亿token上进行训练。

如上图所示,训练过程从共同的预热阶段开始,然后分为两个流:一个保持1.3B参数(产生Ouro-1.4B),一个上循环至2.6B参数(产生Ouro-2.6B)。两个流独立经历相同的后续四阶段训练过程,最后通过推理SFT阶段创建Ouro-Thinking模型。

KV缓存共享策略

为解决循环架构导致的内存开销问题,研究者探索了KV缓存重用策略,发现在解码阶段,只保留最后一步的KV缓存或所有步骤的平均KV缓存,可以在几乎不损失性能的情况下将内存需求降低4倍。

未来展望与应用前景

循环语言模型(LoopLM)为大语言模型的发展提供了一个新的扩展方向,超越了传统的参数规模和数据量两个维度。未来研究可以从以下几个方面进一步探索:

  1. 递归机制的优化:探索更复杂的递归结构,如条件递归或混合递归,进一步提高模型的推理能力和参数效率。
  2. 自适应深度分配的精细化:开发更精确的门控机制,能够在token级别动态分配计算资源,为不同类型的输入内容提供最优的计算深度。
  3. 多模态LoopLM:将循环架构扩展到多模态领域,探索在视觉-语言任务中的应用潜力,特别是需要多步推理的复杂场景理解任务。
  4. 边缘设备部署:利用LoopLM的参数效率优势,开发适用于资源受限设备的高效推理系统,实现本地化的复杂推理能力。
  5. 结合神经符号方法:将LoopLM与神经符号推理系统结合,探索如何利用循环结构更好地实现符号操作和逻辑推理。

这些方向不仅可以进一步提升模型性能,还有望在实际应用中解决计算资源限制问题,使高级推理能力更广泛地应用于各种场景。

结论

Ouro循环语言模型展示了通过架构创新实现参数效率提升的巨大潜力。通过在预训练阶段直接构建迭代计算和自适应深度分配机制,LoopLM在固定参数预算内实现了卓越的推理性能。这种方法不仅提高了模型效率,还增强了安全性和推理忠实性,为未来大语言模型的发展提供了新的思路。

相关资源

  • 模型主页:http://ouro-llm.github.io/
  • 论文链接:https://arxiv.org/abs/2510.25741

相关资讯

超越思维链?深度循环隐式推理引爆AI圈,LLM扩展有了新维度

不需要特殊训练数据,能处理语言难以形容的任务,3.5B 参数能实现 50B 的性能。 这是一种全新的语言模型架构,能够通过使用循环语言模型在潜在空间中隐式推理,显著提升模型的计算效率,尤其是在需要复杂推理的任务上。 近日,马里兰大学的一篇论文在 AI 研究社区中引发了关注,其提出的语言模型通过迭代循环块来工作,能在测试时展开到任意深度。
2/12/2025 2:22:00 PM
机器之心

四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。 相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。 但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?
7/24/2025 9:15:00 AM

Meta公布BLT新架构:告别token,拥抱patch

译者 | 核子可乐审校 | 重楼Meta发布的BLT架构为大模型扩展找到又一条出路,也开启了用patch方法取代token的全新可能性。 开篇先提问:我们为什么非得把文本拆分成token? 直接用原始字节怎么就不行?
1/22/2025 8:17:03 AM
核子可乐
  • 1