字节Seed 团队推出 PHD-Transformer，成功扩展预训练长度，解决 KV 缓存问题！

作者：AI在线 2025-04-28 05:00

近日，字节跳动的 Seed 团队在人工智能领域再传佳音，推出了一种新型的 PHD-Transformer（Parallel Hidden Decoding Transformer），这项创新突破了预训练长度的限制，有效解决了推理过程中的 KV 缓存膨胀问题。随着大型推理模型的迅速发展，研究人员在后训练阶段尝试通过强化学习方法来生成更长的推理链，并在复杂的推理任务上取得了显著成果。受到启发，字节 Seed 团队决定探索在预训练阶段进行长度扩展的可能性。

传统的长度扩展方法常常涉及在序列中插入文本或潜在向量，这些方式往往导致 KV 缓存占用过多内存，推理速度慢。而 PHD-Transformer 则采用了一种更为简便的策略 —— 直接重复输入的 tokens。尽管这种方法在训练损失和模型性能上有明显的提升，却也带来了 KV 缓存线性增长、内存压力加大和解码延迟等新问题。

为了解决这些挑战，PHD-Transformer 通过创新的 KV 缓存管理策略，保留了与原始 Transformer 相同的缓存大小。在推理时，PHD-Transformer 只保留由原始 tokens 生成的 KV 缓存，而对重复的 tokens 则在预测后立即丢弃，显著加快了推理速度。此外，研究团队还引入了滑动窗口注意力机制，称之为 PHD-SWA，以保持局部滑动窗口缓存的性能优势。为进一步优化预填充时间，研究者提出了逐块滑动窗口注意力机制 PHD-CSWA，限制了每个块内的顺序依赖，从而大幅缩短了预填充时间。

在一系列实验中，PHD-CSWA 表现出色，在多个公开基准测试集上均实现了准确率的提升。研究团队表示，PHD-CSWA 在保持原有效率的同时，为模型带来了更大的性能提升，标志着在大规模推理任务中，预训练长度扩展取得了实质性进展。

字节Seed 团队推出 PHD-Transformer，成功扩展预训练长度，解决 KV 缓存问题！

相关资讯

字节跳动发布高效预训练长度缩放技术，突破长序列训练瓶颈

论机器学习领域的内卷：不读PhD，我配不配找工作？

新加坡国立大学金玥明组全奖博士生、博士后、科研助理招募