AI在线 AI在线

字节Seed 团队推出 PHD-Transformer,成功扩展预训练长度,解决 KV 缓存问题!

作者:AI在线
2025-04-28 05:00
近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了预训练长度的限制,有效解决了推理过程中的 KV 缓存膨胀问题。 随着大型推理模型的迅速发展,研究人员在后训练阶段尝试通过强化学习方法来生成更长的推理链,并在复杂的推理任务上取得了显著成果。 受到启发,字节 Seed 团队决定探索在预训练阶段进行长度扩展的可能性。

近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了预训练长度的限制,有效解决了推理过程中的 KV 缓存膨胀问题。随着大型推理模型的迅速发展,研究人员在后训练阶段尝试通过强化学习方法来生成更长的推理链,并在复杂的推理任务上取得了显著成果。受到启发,字节 Seed 团队决定探索在预训练阶段进行长度扩展的可能性。

传统的长度扩展方法常常涉及在序列中插入文本或潜在向量,这些方式往往导致 KV 缓存占用过多内存,推理速度慢。而 PHD-Transformer 则采用了一种更为简便的策略 —— 直接重复输入的 tokens。尽管这种方法在训练损失和模型性能上有明显的提升,却也带来了 KV 缓存线性增长、内存压力加大和解码延迟等新问题。

image.png

为了解决这些挑战,PHD-Transformer 通过创新的 KV 缓存管理策略,保留了与原始 Transformer 相同的缓存大小。在推理时,PHD-Transformer 只保留由原始 tokens 生成的 KV 缓存,而对重复的 tokens 则在预测后立即丢弃,显著加快了推理速度。此外,研究团队还引入了滑动窗口注意力机制,称之为 PHD-SWA,以保持局部滑动窗口缓存的性能优势。为进一步优化预填充时间,研究者提出了逐块滑动窗口注意力机制 PHD-CSWA,限制了每个块内的顺序依赖,从而大幅缩短了预填充时间。

在一系列实验中,PHD-CSWA 表现出色,在多个公开基准测试集上均实现了准确率的提升。研究团队表示,PHD-CSWA 在保持原有效率的同时,为模型带来了更大的性能提升,标志着在大规模推理任务中,预训练长度扩展取得了实质性进展。

相关标签:

相关资讯

字节跳动发布高效预训练长度缩放技术,突破长序列训练瓶颈

字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架,显著提升大语言模型(LLM)在长序列预训练中的效率与性能。 据AIbase了解,该技术在保持推理效率的同时,支持高达2048K(2M)的上下文长度训练,解决了传统框架在数据异构性与计算平衡上的瓶颈。 相关研究已在arXiv公开,引发了AI研究社区的广泛关注。
4/23/2025 3:00:42 PM
AI在线

进我的收藏夹吃灰吧:大模型加速超全指南来了

2023 年,大型 语言模型(LLM)以其强大的生成、理解、推理等能力而持续受到高度关注。然而,训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的方法。最近,一位名为 Theia Vogel 的博主整理撰写了一篇长文博客,对加速 LLM 推理的方法进行了全面的总结,对各种方法展开了详细的介绍,值得 LLM 研究人员收藏查阅。以下是博客原文内容。之前,我使用经典的自回归采样器手动制作了一个 transformer,大致如下:这种推理方法很优雅,是 LL
2/15/2024 2:54:00 PM
机器之心

一致哈希算法:如何分群,突破集群的“领导者”限制?

一、一致哈希算法的背景1.1 传统哈希算法的问题在传统的哈希算法中,数据存储通常采用如下映射关系:node=hash(key)%Nnode = hash(key) \% Nkey:数据的键N:当前集群中节点的数量问题:当节点数量发生变化(例如从2个节点扩展到3个节点),几乎所有的键都会被重新分配到不同的节点上,导致大量数据迁移。 示例:2个节点:hash(key) % 2 → 节点0、节点1扩展到3个节点:hash(key) % 3 → 节点0、节点1、节点2可以看到,大部分数据的映射发生了变化。 1.2 一致哈希的引入一致哈希算法 使用了一个逻辑哈希环(Hash Ring)的概念,将整个哈希空间(0到2^32-1)组织成一个环形结构。
12/31/2024 10:55:38 AM
架构师秋天
  • 1