AI在线 AI在线

UNCOMP

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释。 为什么模型越深,稀疏性越明显? 为什么会出现所谓的「检索头」和「检索层」?
11/13/2025 1:10:00 PM
机器之心