AI在线 AI在线

基于能量的Transformer横空出世!全面超越主流模型35%

时令 发自 凹非寺. 量子位 | 公众号 QbitAI. AI无需监督就能学习思考?

时令 发自 凹非寺 量子位 | 公众号 QbitAI

AI无需监督就能学习思考?

弗吉尼亚大学团队最新提出EBT(Energy-Based Transformers)架构,通过全新能量机制,首次实现在跨模态以及数据、参数、计算量和模型深度等多个维度全面超越Transformer++(基于Llama 2的Transformer优化版本)的模型。

基于能量的Transformer横空出世!全面超越主流模型35%

在离散(文本)和连续(视觉)模态下,EBT在数据量、批次大小、参数量、计算量和模型深度等方面比Transformer++提升了约35%。

基于能量的Transformer横空出世!全面超越主流模型35%

在推理过程中,EBT在测试时也比Transformer++提高了29%。

基于能量的Transformer横空出世!全面超越主流模型35%

那么,这种模拟人类思考模式的新架构EBT,到底是如何实现的呢?

EBT方法:基于能量的Transformer

动图封面

EBT通过能量最小化过程模拟思考:从随机预测开始,通过梯度下降反复优化,直到能量收敛,从而动态决定“思考步数”。

这让模型具备了像人类一样“想清楚再回答”的能力。

EBT是基于EBM(Energy-Based Models)原理发展而来的具体模型架构。

它通过学习一个能量函数,为每一种输入配置分配一个标量值。

能量越低,表示输入变量之间的兼容性或概率越高;能量越高,则表示兼容性或概率越低。

因此,这个能量函数可以被视为对输入数据一致性的验证器。

虽然EBM提供了灵活的建模框架,但如何实现大规模训练仍是一个未解决的研究难题。

目前主要有两种训练方法——对比学习法和正则化方法。

由于维度灾难问题,对比方法难以扩展。

为此,研究人员将EBM学习转化为一个优化问题,通过隐式正则化能量空间,有效避免了维度灾难,实现了可扩展的学习。

在这种方法中,EBM通过梯度下降将初始预测优化到真实解。

基于能量的Transformer横空出世!全面超越主流模型35%

Transformer因其并行性、稳定性和可扩展性优势,成为EBM的理想架构。

基于此,研究者提出了EBT,包括两种变体:

  • 受GPT启发的解码器单向EBT,可用于自回归建模;
  • 具备双向注意力的双向EBT,支持填充和掩码建模。

双向EBT实现较简单,而自回归EBT因信息泄漏问题实现较复杂。

EBT全方面优于Transformer++

研究者针对六个不同维度进行了扩展实验——包括数据量、批量大小、网络深度、参数量、计算量(FLOPs)和嵌入维度。

基于能量的Transformer横空出世!全面超越主流模型35% 基于能量的Transformer横空出世!全面超越主流模型35%

在所有这些维度上,EBT一致优于Transformer++,成为首个在不更换分词器的情况下实现多维度超越Transformer++的模型。

其次,随着训练时间的增加,EBT的思考能力也不断提升,其通过验证获得的性能提升从4%−8%增加到10%−14%。

基于能量的Transformer横空出世!全面超越主流模型35%

此外,EBT超越Transformer++的优势不仅限于单一模态,研究人员在视频任务中同样验证了这一点。

基于能量的Transformer横空出世!全面超越主流模型35%

研究者还将EBT与扩散模型在相对简单的图像去噪任务上进行了比较,结果显示EBT在性能上优于扩散模型,同时所需的前向计算次数减少了99%。

基于能量的Transformer横空出世!全面超越主流模型35%

EBT通过引入基于能量的优化机制,为系统2思维的实现提供了新的思路,展现出良好的扩展性和较强的泛化能力。

作者介绍

基于能量的Transformer横空出世!全面超越主流模型35%

论文一作Alexi Gladstone是一位专注于“系统2思维”、能量基模型(EBM)及多模态学习方向的AI研究者,目前就读于伊利诺伊大学厄本那-香槟分校(UIUC)。

2025 年,他在学术界取得了令人瞩目的成绩:

  • NSF 研究生研究奖学金;
  • ICML 2025的最佳审稿人;
  • Meta研究科学家实习。

他工作之余喜欢锻炼、爬山和跑步,也热衷于探索认知科学、计算神经科学、物理学和心理学等多个学科领域。

内心深处,他是一名哲学科学家,始终在追寻对我们所处宇宙的更深理解。

基于能量的Transformer横空出世!全面超越主流模型35%

作者之一Yilun Du(杜逸伦)是一位活跃在生成模型与具身智能领域的人工智能研究者,现任哈佛大学肯普纳研究所的助理教授,同时也是Google DeepMind的高级研究科学家。

他本科和博士均毕业于麻省理工大学,曾在OpenAI、FAIR和DeepMind等顶尖研究机构工作,并在国际生物学奥林匹克竞赛中获得金牌。

他的研究核心目标是构建能够在物理世界中进行推理与决策的智能体,主要聚焦于利用生成式AI构建世界模型,将系统规划与迭代推理自然融入只能体的学习过程中。

面对数据有限和泛化需求高的挑战,他提出以能量基模型(EBM)为基础,构建可组合的生成模型,有效突破对大量标注数据的依赖。

论文链接:https://arxiv.org/abs/2507.02092 参考链接:https://x.com/du_yilun/status/1942236593479102757

—完—

相关资讯

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求。使用该技术,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8B 模型上,模型能处理 500K 的书籍摘要任务。自 2017 年开创性研究论文《Attention is All Yo
4/12/2024 7:43:00 PM
机器之心

机器人策略学习的Game Changer?伯克利提出Body Transformer

过去几年间,Transformer 架构已经取得了巨大的成功,同时其也衍生出了大量变体,比如擅长处理视觉任务的 Vision Transformer(ViT)。本文要介绍的 Body Transformer(BoT) 则是非常适合机器人策略学习的 Transformer 变体。我们知道,物理智能体在执行动作的校正和稳定时,往往会根据其感受到的外部刺激的位置给出空间上的响应。比如人类对这些刺激的响应回路位于脊髓神经回路层面,它们专门负责单个执行器的响应。起校正作用的局部执行是高效运动的主要因素,这对机器人来说也尤为重
8/19/2024 2:19:00 PM
机器之心

七彩虹推出 “虹光 AI” 助手接入全速版 DeepSeek

七彩虹科技正式宣布,其全新的 “虹光 AI” 智能模型助手已全面接入满血版 DeepSeek R1模型。 这一升级使得七彩虹的笔记本产品在性能和推理效率上得到了显著提升。 此次更新的 “虹光 AI” 助手,基于当前热门的 Transformer 架构,并采用了 MLA 与 Deep Seek MoE 技术,显著降低了内存占用,减少了缓存需求,从而提升了整体的推理效率。
2/8/2025 5:57:00 PM
AI在线
  • 1