AI在线 AI在线

数据流芯片

上交大冷静文:模型发展需要和芯片、系统厂商协同

作者丨朱可轩编辑丨陈彩娴近期,上海交通大学与 AI Infra 创企魔形智能联合研究团队在由 IEEE 计算机协会主办的 HPCA 2025(International Symposium on High-Performance Computer Architecture)会议上,发表了论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》。 论文提出的 VQ-LLM 框架通过分层代码本缓存和代码本中心计算引擎两大核心技术,成功实现了超过 50% 的推理延迟降低,性能超越同比特宽度的传统逐元素量化方法。 这一突破为向量量化(VQ)技术的实际部署提供了可行方案,在保持大语言模型高精度的同时,显著提升了推理效率。
4/30/2025 5:54:00 PM
朱可轩
  • 1