AI在线 AI在线

单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

乘法和排序也有效。自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,一直稳站 C 位。但所有研究者都不得不承认的是,Transformer 在算数任务中表现非常糟糕,尤其是加法,这一缺陷在很大程度上源于 Transformer 无法跟踪大范围数字中每个数字的确切位置。为了解决这个问题,来自马里兰大学、CMU 等机构的研究者向这一问题发起了挑战,他们通过在每个数字中添加一个嵌入来解决这个问题,该嵌入编码数字相对于开头的位置。该研究发现,只用一天时间在单个 GPU 上训练 20 位数字

乘法和排序也有效。

自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,一直稳站 C 位。

但所有研究者都不得不承认的是,Transformer 在算数任务中表现非常糟糕,尤其是加法,这一缺陷在很大程度上源于 Transformer 无法跟踪大范围数字中每个数字的确切位置。

为了解决这个问题,来自马里兰大学、CMU 等机构的研究者向这一问题发起了挑战,他们通过在每个数字中添加一个嵌入来解决这个问题,该嵌入编码数字相对于开头的位置。该研究发现,只用一天时间在单个 GPU 上训练 20 位数字,就可以达到最新的性能水平,100 位数字加法问题高达 99% 的准确率。

图片

论文地址:https://arxiv.org/pdf/2405.17399

项目地址:https://github.com/mcleish7/arithmetic

标题:Transformers Can Do Arithmetic with the Right Embeddings

具体而言,研究者建议对数据表示进行一个简单的修改,就能解决这个缺点。他们提出了 Abacus 嵌入用于编码每个数字符号 token 范围内的位置。将 Abacus 嵌入与标准位置嵌入结合使用后,该研究观察到 Transformer 在算数任务上的准确率有显著提高,以至于最多只训练了 20 位数操作数的模型可以泛化到 120 位数操作数的问题。这一数字代表了 6 倍的 SOTA 泛化因子,而以前的最先进的泛化因子也只有 2.5 倍。据了解,这是迄今为止被证明的最长的学习加法序列。

此外,本文还研究了几种其他方法来改善 transformer 在算术和泛化方面的性能,他们发现结合输入注入(input injection),即在输入层和每个解码器层之间插入跳跃连接,可以在 Abacus 嵌入基线上减少 50% 的泛化误差。本文还发现,与嵌入结合使用的 looped transformer 架构可以在加法问题上实现几乎完美的泛化。

本文的贡献可以总结如下:

本文提出了一种新的位置嵌入,称为 Abacus 嵌入,以更好地捕获每个数字的重要性,从而实现近乎完美的分布内泛化;

研究表明,当将 Abacus 嵌入与输入注入和 looped transformer 相结合时,性能会进一步提高,分布外准确率从 92.9% 提高到 99.1%,与单独使用标准架构的嵌入相比,误差降低了 87%;

研究者将这些发现扩展到更复杂的问题,包括乘法和排序,在这些领域也展现出了长度泛化。

实现加法的长度泛化

作者研究了一系列方法,旨在提高从头开始训练的语言模型在算术能力上的表现。他们主要关注两个假设:1)数字内各个位数的位置信息正在丢失;2)循环可以提高 Transformer 架构在多步算术推理问题上的推理能力。在详细描述每项改进之前,作者简要讨论了训练和评估设置。

实验设置

作者训练了仅包含解码器的因果语言模型来解决加法问题。

他们考虑了两种标准 transformer 架构。首先,他们使用一个标准的自回归 transformer 模型,多个解码器层以前馈方式堆叠。其次,他们通过输入注入(input injection)增强了这一标准 transformer 模型,即把嵌入的输入添加到每个解码器层的输入中。作者在图 20 中直观地描述了这些架构。

图片

Abacus 嵌入帮助对齐数字

通过之前的研究和初步实验,作者发现,即使输入的数字是先显示最不重要的数字,训练数据是分层的、丰富的(几百万个例子),标准 transformer 也很难学习多位数加法。他们还观察到,人类在进行长加法运算时,会先将数位相同的数字排列成列。因此,作者的第一个假设是,对于 transformer 来说,每个数字的数位并不容易表示,而且这个子问题比实际加法本身带来的障碍更大。

为了解决 transformer 在表示位置信息方面的局限性,作者设计了一种特殊的位置嵌入,它可以编码每个数字相对于当前数字起始位置的位置。作者将其称之为 Abacus 嵌入。他们将相同的位置嵌入应用于所有具有相同数位的数字,从而提供一个显式的信号,供模型用于对齐数字,如图 2 所示。

图片

Abacus 嵌入解决加法问题

对于标准 transformer 架构,Abacus 嵌入可将泛化性能提高到 100 位及以上。在图 3(左)中,作者强调了 Abacus 嵌入与标准 transformer 架构和嵌入相比,在进行加法运算时所具有的比较优势,取三种模型在所有情况下的平均准确度。

图片

图 1 还显示了使用 FIRE 和 Abacus 训练的标准 transformer 模型的准确度结果,这些模型经过了域内 (ID) 和域外 (OOD) 测试。图片

Transformer 中的循环提高了性能

在解决位置嵌入问题后,接下来作者探讨了循环架构能否进一步提高 transformer 执行多位数加法的能力。他们使用「循环块(recurrent block)」一词来指一组具有不同权重的解码器层,而「循环(recurrence)」则指循环块的重复次数。作者使用有效深度(effective depth)一词来指 transformer 中使用的层数,无论其权重是否唯一。除非另有说明,否则他们使用的是最大循环架构,即只循环一个唯一层来达到有效深度。他们还采用了输入注入、 残差连接的方式,将输入的副本传播到网络中的每一层。

循环的优势

在图 3(右)中,作者比较了使用 FIRE 和 NoPE 嵌入对操作数多达 40 位的加法进行训练的所有架构变体。尽管参数数量仅相当于其他模型的 1/10,但可以看到,looped transformer(循环的、有输入注入和渐进损失)在使用任何一种位置嵌入时都取得了最佳的分布外性能。在图 8 中,作者展示了这一结果在多种训练数据规模下的稳健性。

图片

对于循环模型,可以选择在训练时改变每次前向传递的循环次数。这往往会提高模型测试时对较难任务的泛化能力,这也被称为渐进损失计算(progressive loss computation)。这个损失函数是两个前向传递的损失值的凸组合,一个使用字面上的循环数(1 × 16 模型为 16),另一个使用随机的较小循环数。

接下来,作者探讨了在保持有效深度固定的同时改变循环块大小的效果。他们将循环块中的层数减半,循环次数增加一倍,从块中有 16 层、循环次数只有一次(16 × 1,即标准 transformer)的模型,过渡到块中只有一层、循环次数有 16 次(1 × 16)的模型。

通过图 4 分析这些结果,作者发现在某些情况下,结合循环和 Abacus 嵌入可以进一步提高性能。具体来说,在 OOD 问题上,有两个循环的模型(8 × 2)产生的误差是纯非循环模型(16 × 1)的一半,而在 100 + 的 OOD 问题上,其准确率也有所提高。

最后,在附录 A.7.3 中,作者改变了模型的有效深度,以分析参数数量对这项任务的影响,包括 Abacus、FIRE 和 NoPE 嵌入。虽然图 4 中的实验是对不同深度的公平比较,但纯粹的标准 transformer 模型比相应的循环模型拥有更多的参数。在附录的表 3 中,作者记录了最接近百万的参数量。

图片

图片

实验

研究者不仅对加法问题进行了探讨,还对乘法和排序进行了研究。

整数乘法

图 5 展示了 Abacus 嵌入模型在 15 位数乘法的分布内准确率超过了之前的工作,且不需要用零将每个操作数填充到相同长度。特别地,该研究强调,与仅使用 FIRE 的基线相比,将 Abacus 嵌入与 FIRE 相结合也提高了分布问题中最难的分布准确率 (右下)。

图片

数组排序

表 1 展示了使用不同嵌入 ——FIRE、Abacus 及其组合 —— 训练的标准 transformer(八层)的性能。结果显示,组合嵌入方法增强了模型的泛化能力。

图片

如表 2 所示,研究者观察到在将 Abacus+FIRE 嵌入组合与不同的模型架构(有效深度为 8)配对时,结果表现出混合性。

图片

Abacus 和相关嵌入

图 6 展示了将 Abacus 嵌入整合到更通用系统中的真正潜力,显示出 Abacus 嵌入与 FIRE 结合可以解锁远超 FIRE 嵌入解决问题的能力。 

图片

更多研究细节,请参考原论文。

相关资讯

LLM取代的第一个编程语言竟是SQL?网友吵翻天

SQL 即将被 AI 取代,这种说法你同意吗?一年前,AI 大牛 Andrej Karpathy 曾预言,最热门的新编程语言是英语。一年后,人工智能及机器学习研究商 Abacus.AI 首席执行官 Bindu Reddy 表示:「LLM 用英语取代的第一个编程语言是 SQL,SQL 生成准确率超过 95%,超过了人类 SQL 程序员(准确率为 92%)的平均水平,大多数数据库产品已经提供了一个 chatbox 接口来查询数据」。Bindu Reddy 口中的 Chatbox 是一个开源的桌面端程序,Prompt 的
8/27/2024 4:51:00 PM
机器之心

Meta320亿天价挖角OpenAI!AI人才战炸裂,行业格局要变天?

近日,Abacus.AI首席执行官发表公开评论,称Meta已成功从OpenAI挖走七名员工,并曾向OpenAI联合创始人Ilya Sutskever开出高达320亿美元的收购报价,试图将其初创公司Safe Superintelligence(SSI)纳入麾下。 这一消息引发了业界对AI人才争夺战的广泛关注。 AIbase整理了最新网络信息,为您解析这场席卷科技行业的“人才风暴”。
6/30/2025 5:00:50 PM
AI在线

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求。使用该技术,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8B 模型上,模型能处理 500K 的书籍摘要任务。自 2017 年开创性研究论文《Attention is All Yo
4/12/2024 7:43:00 PM
机器之心

机器人策略学习的Game Changer?伯克利提出Body Transformer

过去几年间,Transformer 架构已经取得了巨大的成功,同时其也衍生出了大量变体,比如擅长处理视觉任务的 Vision Transformer(ViT)。本文要介绍的 Body Transformer(BoT) 则是非常适合机器人策略学习的 Transformer 变体。我们知道,物理智能体在执行动作的校正和稳定时,往往会根据其感受到的外部刺激的位置给出空间上的响应。比如人类对这些刺激的响应回路位于脊髓神经回路层面,它们专门负责单个执行器的响应。起校正作用的局部执行是高效运动的主要因素,这对机器人来说也尤为重
8/19/2024 2:19:00 PM
机器之心

论文分享 | 丢弃卷积,纯Transformer构建GAN网络

最近,计算机视觉(CV)领域的研究者对 Transformer 产生了极大的兴趣并陆续取得了不少突破。比如,2020 年 5 月,Facebook AI 的研究者推出了 Transformer 的视觉版本——Detection Transformer,在性能上媲美当时的 SOTA 方法,但架构得到了极大简化;10 月,谷歌提出了 Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积网络。
2/26/2021 2:27:00 PM
机器之心

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

华为诺亚方舟实验室联合北大和悉大整理了业界第一篇视觉Transformer综述。
2/23/2022 2:55:00 PM
机器之心

39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22

基于残差量化的自回归图像生成,官方已将代码公开。
3/27/2022 12:42:00 PM
机器之心

Creator 面对面 | 大模型的最后一公里路“不太平”

自 2018 年谷歌推出 BERT 以来,语言模型就开始朝着「大模型」的方向演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。
7/19/2022 3:44:00 PM
SOTA模型

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer

来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer,即 Next-ViT。Next-ViT 能像 CNN 一样快速推断,并有 ViT 一样强大的性能。
7/22/2022 5:26:00 PM
机器之心

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

多模态情感识别是人机交互中的重要技术,也是人工智能走向类人智能时所需要攻克的关键难题。
12/20/2022 3:34:00 PM
优必选科技

想把半本《红楼梦》搬进ChatGPT输入框?先把这个问题解决掉

从 GPT-4 的 32k 到谷歌 CoLT5 的 64k 再到最新研究的 200万 token,类ChatGPT 模型们可以处理的文本长度正在急剧增加,这意味着它们的应用范围也越来越广。或许有一天,ChatGPT 能帮乔治·马丁把《冰与火之歌》(权力的游戏)写完呢?过去两年,斯坦福大学 Hazy Research 实验室一直在从事一项重要的工作:增加序列长度。 他们有一种观点:更长的序列将开启机器学习基础模型的新时代 —— 模型可以从更长的上下文、多种媒体源、复杂的演示等中学习。目前,这项研究已经取得了新进展。H
4/27/2023 3:11:00 PM
机器之心

基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘

本文旨在更好地理解基于 Transformer 的大型语言模型(LLM)的内部机制,以提高它们的可靠性和可解释性。
6/22/2023 1:25:00 PM
机器之心

能胜任统计学家?Transformers超强学习机制「自动算法选择」

Salesforce AI Research、北京大学和 UC 伯克利合作的最新论文,发现 Transformer 模型在上下文中学习(in-context learning)的新机制:「自动算法选择」,类似统计与机器学习专家能够现实完成的工作。
7/18/2023 3:01:00 PM
机器之心

岩芯数智推出非Attention机制大模型,支持离线端侧部署

1月24日,上海岩芯数智人工智能科技有限公司对外推出了一个非Attention机制的通用自然语言大模型——Yan模型。岩芯数智发布会上称,Yan模型使用了全新自研的“Yan架构”代替Transformer架构,相较于Transformer,Yan架构的记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。岩芯数智CEO刘凡平认为,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大
1/25/2024 9:27:00 PM
机器之心

李飞飞主讲,斯坦福2024 CS231n开课,依旧座无虚席

「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头,这是人工智能和计算机视觉令人难以置信的十年!」知名 AI 科学家李飞飞的计算机视觉「神课」CS231n,又一次开课了。总共 600 多位学生报名,第一堂课的现场座无虚席:从 2015 年到如今,CS231n 已经走到九个年头,也成为了一代计算机视觉专业学生心中的「必修课」:虽然课程代码不变,但可以猜到,2024 年的课程相比 2021 年版本的课程有不少新增内容,这还要归因于视觉生成技术三年来的巨大飞跃。在今年初的国际消费类电子产品展览
4/7/2024 12:02:00 AM
机器之心

OpenAI 公关跳起来捂他嘴:Transformer 作者公开承认参与 Q*!

Transformer 作者中唯一去了 OpenAI 的那位,公开承认了:他参与了 Q * 项目,是这项新技术的发明者之一。这几天除了英伟达老黄组局把 Transformer 作者聚齐,他们中的几位还接受了连线杂志的采访,期间出了这么一个小插曲。当记者试图询问 Lukasz Kaiser 更多关于 Q * 的问题时时,OpenAI 的公关人员几乎跳过桌子去捂他的嘴。结合阿尔特曼在接受采访时,毫不迟疑地拒绝了相关提问,“我们还没准备好谈论这个话题”。神秘 Q*,成了 OpenAI 当前最需要保守的秘密之一。不过对于
3/25/2024 6:38:43 PM
清源

研究人员推出 xLSTM 神经网络 AI 架构:并行化处理 Token、有望迎战 Transformer

研究人员 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年共同提出了长短期记忆(Long short-term memory,LSTM)神经网络结构,可用来解决循环神经网络(RNN)长期记忆能力不足的问题。而最近 Sepp Hochreiter 在 arXiv 上发布论文,提出了一种名为 xLSTM(Extended LSTM)的新架构,号称可以解决 LSTM 长期以来“只能按照时序处理信息”的“最大痛点”,从而“迎战”目前广受欢迎的 Transformer 架构。IT之家
5/13/2024 8:59:57 AM
漾仔

全球首款 Transformer 专用 AI 芯片 Sohu 登场:每秒可处理 50 万个 tokens,比英伟达 H100 快 20 倍

Etched 公司宣布完成 1.2 亿美元(IT之家备注:当前约 8.73 亿元人民币) A 轮融资,将用于开发和销售全球首款 Transformer 专用集成电路(ASIC)芯片 Sohu。IT之家查询公开资料,Etched 公司由两名哈佛大学辍学生加文・乌伯蒂(Gavin Uberti)和克里斯・朱(Chris Zhu)创立,成立时间不到 2 年。Sohu 芯片最大的亮点在于直接把 Transformer 架构蚀刻到芯片中,乌伯蒂称 Sohu 采用台积电的 4 纳米工艺制造,推理性能大大优于 GPU 和其他通用
6/26/2024 11:31:40 AM
故渊
  • 1