AI在线 AI在线

Grouped-head latent Attention

重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%

GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学(广州)联合研发,提出了一种高效的大模型框架,显著提升模型性能与计算效率。 一作为自动化所的孙罗洋博士生,研究方向为:大模型高效计算与优化,通讯作者为香港科技大学(广州)的邓程博士、自动化所张海峰教授及伦敦大学学院汪军教授。 该成果为大模型的优化部署提供了创新解决方案。
7/22/2025 5:13:00 PM
机器之心
  • 1