AI在线 AI在线

Differential Transformer

这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机

Transformer 的强大实力已经在诸多大型语言模型(LLM)上得到了证明,但该架构远非完美,也有很多研究者致力于改进这一架构,比如AI在线曾报道过的 Reformer 和 Infini-Transformer。今天我们又将介绍另一种新型 Transformer 架构:Differential Transformer(差分 Transformer,简称 Diff Transformer)。该架构来自微软研究院和清华大学,有四位共一作者:Tianzhu Ye、Li Dong、Yuqing Xia、Yutao Su
10/9/2024 2:23:00 PM
机器之心
  • 1