AI在线 AI在线

EvolKV

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

只用 1.5% 的内存预算,性能就能超越使用完整 KV cache 的模型,这意味着大语言模型的推理成本可以大幅降低。 EvolKV 的这一突破为实际部署中的内存优化提供了全新思路。                 图源:(KV cache)已经成为大模型快速运行的核心技术,它就像一个「记忆库」,能够保存之前计算过的结果并重复使用,这样就不用每次都重新计算同样的内容。
9/14/2025 1:48:00 PM
机器之心
  • 1