AI在线 AI在线

字节Seed 团队推出 PHD-Transformer,成功扩展预训练长度,解决 KV 缓存问题!

近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了预训练长度的限制,有效解决了推理过程中的 KV 缓存膨胀问题。 随着大型推理模型的迅速发展,研究人员在后训练阶段尝试通过强化学习方法来生成更长的推理链,并在复杂的推理任务上取得了显著成果。 受到启发,字节 Seed 团队决定探索在预训练阶段进行长度扩展的可能性。

近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了预训练长度的限制,有效解决了推理过程中的 KV 缓存膨胀问题。随着大型推理模型的迅速发展,研究人员在后训练阶段尝试通过强化学习方法来生成更长的推理链,并在复杂的推理任务上取得了显著成果。受到启发,字节 Seed 团队决定探索在预训练阶段进行长度扩展的可能性。

传统的长度扩展方法常常涉及在序列中插入文本或潜在向量,这些方式往往导致 KV 缓存占用过多内存,推理速度慢。而 PHD-Transformer 则采用了一种更为简便的策略 —— 直接重复输入的 tokens。尽管这种方法在训练损失和模型性能上有明显的提升,却也带来了 KV 缓存线性增长、内存压力加大和解码延迟等新问题。

image.png

为了解决这些挑战,PHD-Transformer 通过创新的 KV 缓存管理策略,保留了与原始 Transformer 相同的缓存大小。在推理时,PHD-Transformer 只保留由原始 tokens 生成的 KV 缓存,而对重复的 tokens 则在预测后立即丢弃,显著加快了推理速度。此外,研究团队还引入了滑动窗口注意力机制,称之为 PHD-SWA,以保持局部滑动窗口缓存的性能优势。为进一步优化预填充时间,研究者提出了逐块滑动窗口注意力机制 PHD-CSWA,限制了每个块内的顺序依赖,从而大幅缩短了预填充时间。

在一系列实验中,PHD-CSWA 表现出色,在多个公开基准测试集上均实现了准确率的提升。研究团队表示,PHD-CSWA 在保持原有效率的同时,为模型带来了更大的性能提升,标志着在大规模推理任务中,预训练长度扩展取得了实质性进展。

相关资讯

字节跳动发布高效预训练长度缩放技术,突破长序列训练瓶颈

字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架,显著提升大语言模型(LLM)在长序列预训练中的效率与性能。 据AIbase了解,该技术在保持推理效率的同时,支持高达2048K(2M)的上下文长度训练,解决了传统框架在数据异构性与计算平衡上的瓶颈。 相关研究已在arXiv公开,引发了AI研究社区的广泛关注。
4/23/2025 3:00:42 PM
AI在线

论机器学习领域的内卷:不读PhD,我配不配找工作?

机器学习内卷了吗?
3/31/2021 4:40:00 PM
机器之心

新加坡国立大学金玥明组全奖博士生、博士后、科研助理招募

新一年博士招生正式启动!本期我们将为大家介绍新加坡国立大学金玥明课题组招募博士生 / 博士后 / 科研助理的相关信息。
8/11/2022 8:28:00 AM
机器之心
  • 1