上交大冷静文：模型发展需要和芯片、系统厂商协同

作者丨朱可轩编辑丨陈彩娴近期，上海交通大学与 AI Infra 创企魔形智能联合研究团队在由 IEEE 计算机协会主办的 HPCA 2025（International Symposium on High-Performance Computer Architecture）会议上，发表了论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》。论文提出的 VQ-LLM 框架通过分层代码本缓存和代码本中心计算引擎两大核心技术，成功实现了超过 50% 的推理延迟降低，性能超越同比特宽度的传统逐元素量化方法。这一突破为向量量化（VQ）技术的实际部署提供了可行方案，在保持大语言模型高精度的同时，显著提升了推理效率。

作者丨朱可轩

编辑丨陈彩娴

近期，上海交通大学与 AI Infra 创企魔形智能联合研究团队在由 IEEE 计算机协会主办的 HPCA 2025（International Symposium on High-Performance Computer Architecture）会议上，发表了论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》。

论文提出的 VQ-LLM 框架通过分层代码本缓存和代码本中心计算引擎两大核心技术，成功实现了超过 50% 的推理延迟降低，性能超越同比特宽度的传统逐元素量化方法。

这一突破为向量量化（VQ）技术的实际部署提供了可行方案，在保持大语言模型高精度的同时，显著提升了推理效率。

当前，业界前沿在大模型压缩方面涌现出不少研究成果，不过很大一部分都聚焦于单元素量化，而向量量化的好处则在于，极限、等效的比特压缩位宽会低很多，这也是论文研究所考虑的核心点。

而这篇论文工作的主要负责人为上海期智研究院 PI、上海交通大学计算机科学与工程系教授冷静文，他于 2010 年 7 月毕业于上海交通大学，获得学士学位。此后，其又在 2016 年 12 月从德州大学奥斯汀分校电子与计算机工程系毕业并获得博士学位，博士期间的主攻方向为 GPU 处理器的体系结构优化。

上交大冷静文：模型发展需要和芯片、系统厂商协同

当前，冷静文和团队的主要研究兴趣点还聚焦在芯片架构和硬件互联方面，包括数据流的芯片内部设计以及类似于超节点的高速互联域的硬件设计。此前，其团队也发布了基于数据流和底层算子的一系列优化组件。

DeepSeek 之后国产芯片实现 FP8 的相关问题引发了业内广泛关注，对此，冷静文表示，“之前没有大模型的时候，大家觉得芯片里的算力已经够用了，再做 FP8、FP4 算力就冗余了，所以没有像英伟达那样提前把低位宽的算力把它堆上去，这一代的芯片都可能有同样的问题。”

而对于国产芯片的发展，他认为，“如果大家只是照抄英伟达的设计方法会永远落后于他们，还是得有一些原创性的思考。”这也是冷静文团队侧重于研究数据流芯片的思考之一。

在他看来，“从国内角度来看，GPU 实际上已经存在几十年了，红利快走到尽头了，再往后芯片的架构以及芯片的编程方法怎么去设计，我们想通过数据流的方式来解决问题。”

以下是 AI 科技评论与冷静文的对话：

向量量化与大模型压缩

AI 科技评论：你们团队和魔形智能合作在 HPCA 2025 上发表了一篇论文工作，可以介绍一下您和魔形智能此次合作的这篇论文工作吗？你们最初思考去做这篇工作的出发点是什么？

冷静文：我们认为现阶段大模型很重要，并且大模型的计算量比较大，消耗的存储空间也比较大，所以现在有个很热门的研究方向是做大模型压缩，有一系列的代表性的工作是在大模型的量化上，比如把单个元素从原来的 FP16 压缩到 4 比特的 FP 或者 4 比特的 INT，在这个压缩方法里很多人没有考虑到的点在于不同的元素之间可能存在一定的相关性，这个相关性如何挖掘就是我们的研究动机。

我们做的是原来在向量数据库中的向量量化，把一个 Vector 划分成更小的 Group，然后去挖掘 Group 内元素的相关性，这样就可以更高效地进行压缩。

而向量量化相比于原来单个元素量化的好处在于，它极限、等效的比特压缩位宽可能比原来的单元素量化要低很多，我们分析包括业界也有不少人指出来，单元素的量化做到 4 比特差不多就基本上做到尽头了，那这些就要用向量量化，向量化现在做到两三个比特基本上还是能用的，改进它的一些量化算法。

AI 科技评论：在这篇论文工作中您和魔形智能的团队参与其中分别负责了哪部分内容？

冷静文：我们交大团队主要提出了这个想法，后面包括实验机器以及实验环境、模型等都是和魔形智能的团队合作，双方合作比较紧密，我们也签了一个校企合作的项目，在大模型的基础设施这块一起做前沿研究。

https://arxiv.org/abs/2503.02236

AI 科技评论：您过往的论文工作几乎都是和系统研究相关的，您的这些经验对于当前 LLM 相关论文工作来讲，能提供什么样的参考？

冷静文：系统的很多优化方法都可以来指导大模型的设计，比较重要的方向是找到系统当前的一些瓶颈，然后结合模型的特点来进行联合设计，这当中我们做的工作是去挖掘了一下大模型的参数，或者说它的 KV 缓存里细粒度不同的部分之间存在什么内在关联，怎么利用它们的相关性去做到比较极致的压缩，这是可供参考的。

未来显存容量、通信带宽也都是瓶颈的话，那怎么结合这些瓶颈去让模型更好地适配系统，前段时间大家讨论比较激烈的 NSA 工作也是在这个方向上的。

AI 科技评论：具体来讲，您觉得 NSA 这一工作有什么亮点？给行业带来了哪些价值？

冷静文：之前大家觉得稀疏是很重要的，只不过方法是需要去做静态的基于规则的裁剪、减枝等，NSA 的价值在于就把稀疏设计原生带入到模型的架构中去，有点像 MoE架构，他也是第一个在注意力机制上能够做端到端学习的工作，说明我们之后设计模型的时候，需要把效率优先的原则带入到模型结构里去。

AI 科技评论：你们的研究为向量量化技术的实际部署提供了可行方案，在保持大语言模型高精度的同时，显著提升了推理效率，具体是怎么解决的？解决推理延迟问题的过程中你们也没有遇到过难点问题？

冷静文：整个工作从一开始做 motivation 到后面的具体实现，都还是比较顺利的，因为我们先抓了一个点，先确定向量量化到底是不是比原来的单元素量化更有价值，我们在算法领域找到佐证，自己做了一些实验也得到比较好的效果，后面的系统实现都是我们的强项，没有特别难的问题，最开始的难点在于怎么样找到用向量量化的方法来压缩大模型。

AI 科技评论：您观察看来，海内外还有哪些是比较有价值的探索向量量化突破的前沿工作？和你们的做法又有什么差异？目前在向量量化这块的研究方面还存在哪些优化空间？

冷静文：目前海内外向量量化用在大模型压缩里的工作分成两种，一种是只做压缩，然后计算的时候还是恢复成原来的方法来做计算，还有一种是直接基于压缩后的方式来做计算。我们当前还只是做到了压缩，但是在压缩和计算的联合优化上我们还要继续做，然后现在其实量化只是用在了推理上，需要考虑是不是可以把量化也和训练的过程集成起来。

AI 科技评论：你们的工作目前是已经从学术成果落地到行业内了吗？感觉目前业界的解法和学术界最前沿的研究间还存在多大差距？

冷静文：目前论文工作内容模型那边已经正在落在相关的产品里面。但是另外一个角度来讲，学术界关注前沿研究，更具有前瞻性，要比行业落地早几年。可能现在做的东西如果五年后大家觉得有用再去考虑落地，这会更有前瞻性一些，以此为目标去做学术研究，而不是说现在什么火就去做什么。

DeepSeek 带来的思考

AI 科技评论：您认为 DeepSeek 这种 671B 的 MoE 模型量化起来会有什么难点？这么大参数的稀疏模型该如何在尽量减少精度损失的同时提升推理效率？你们的论文工作对此有什么参考价值吗？

冷静文：目前 DeepSeek 最大的难点在于要跑起来 671B 参数的模型，对机器要求比较高，量化起来速度比较慢，所以我们一般是在小一点的模型上去验证一下方法的有效性。

其中有个比较重要的点在于，671B 的 MoE 模型的每个专家不是每次推理都被会被激活的，现在的一些量化方法其实需要有一些专家被激活后，拿到中间结果后再进行量化压缩，所以最大的问题在于这种 MoE 模型不是每次都激活专家，那么怎么去量化算法，怎么去考虑因素进行相应的调整，除此之外，DeepSeek 的模型跟之前的其他模型也没有太大区别。

AI 科技评论：您如何评价 DeepSeek 训练大模型是软硬一体协同的？包括现在有观点认为，模型其实还是需要根据现有的硬件结构做调整的，您怎么看？

冷静文：我觉得模型在结构上没有太多根据硬件结构做的思考，不过也有一些底层思考是在软硬件一体方面，现在的模型架构告诉我们可以通过做 Attention 来挖掘一些有效的信息，包括训练和当前的 prompt 里面的信息，Attention 是最主要的方式。

那么形成 Attention 的计算方法，我们现在还是要逐个元素做内积，但是需要考虑到这是不是最有效的方法，有没有更高效的方法去做 Attention 的，比如说，我们现在考虑的就是基于向量量化，如果多个向量的 Group 之间没有快速做 Attention 的计算方式，不一定要逐个元素相乘然后做内积，这方面上海交大也提出过块状稀疏的模型架构，在未来会更高效一些。

AI 科技评论：前阵子关于 MaaS 的讨论也很激烈，您如何评价这个问题？这是否只能是大厂的生意，对于小厂来讲注定亏损？

冷静文：我看了 DeepSeek 自己估算的成本，他们给出来的方案能够实现比较低的成本，我觉得从历史的经验来判断，最终要商用肯定是有利润空间的，只是说最终硬件不一定是以现在这种 GPU 的方式来部署，有没有更高效的硬件部署方法，类似于大家之前用苹果 Mac 的 studio，它有一个很大的 unified memory，用这种硬件架构来部署，通过一个很大的 memory 降低较大成本。

所以这当中的优化空间是有的，但都是从商业成本的角度去考虑，甚至包括现在大家做的以存代算的工作，因为不仅要做 serving，Cache 那层也要做好，不是说每一个请求都要算的，中间还要命中一些历史结果，以存换算也是这当中可以优化的点，如果能把模型的部署成本降到极致是能做下去的。

AI 科技评论：小厂能够复现DeepSeek官方的部署优化方案比如专家并行（Expert Parallelism，EP）的话，是否能有一线生机？现在也有厂商已经做到了，您觉得当中会有什么难点？

冷静文：专家并行要做到多 GPU 之间的通信比较难，现在不做 EP，做原来的 DP、TP 等都有官方写好的集合通讯库来调用，做 EP 的话有很多点对点的通信，通信和计算之间的 Overlab 都会比较难，而且英伟达本身也还没有推出比较好的方法来实现 EP，导致现在大家都不太好做，而且目前大家也都是基于英伟达的生态来做，没有国产生态可以做这些。

AI 科技评论：DeepSeek 也开源了一系列代码库，几乎都在围绕英伟达 GPU 展开，这给你们的研究工作带来了哪些有价值的参考？

冷静文：DeepSeek 开源的一系列内容中我比较关注算子生成这一步，因为主要聚焦在单个 GPU 的研究，这当中有些借鉴意义。另外，在多 GPU 的编程上我们团队目前也在开展一些研究，不是基于 GPU 的设计来。

我们团队的芯片架构研究主要集中于数据流芯片，不是做 GPU 上的控制流的方法，海外像 Cerebras 做的大芯片、Tenstorrent 的芯片也是类似于数据流的，但是国外大家都能买到英伟达的 GPU，所以大家不一定会去购买他们，而从国内角度来看，GPU 实际上已经存在几十年了，红利快走到尽头了，再往后芯片的架构以及芯片的编程方法怎么去设计，我们想通过数据流的方式来解决问题。

国产芯片的机会点

AI 科技评论：你们目前为止在数据流方面都做了哪些相关工作？已经解决了哪些业内难点问题？

冷静文：我们对标于 GPU 的 CUDA 编程生态，用的抽象机是基于单指令、多线程的架构，我们可以在 GPU 上做很多开发，它有很好的生态。我们做的数据流芯片是在先考虑了抽象机的设计，我们也发表了一篇中文期刊文章，阐述我们在数据流的抽象机上用基于代码块的、比较细腻度的数据流方式，同时能够去兼容 CUDA 的抽象机，我们能解决的问题是未来设计 AI 芯片的话，AI 芯片底下的抽象模型不一定非得做成英伟达 GPU 的架构，而是可以用代码块的数据流方式来解决。

上交大冷静文：模型发展需要和芯片、系统厂商协同

http://engine.scichina.com/doi/10.1360/SSI-2024-0343

AI 科技评论：数据流芯片的设计研究有何难点？

冷静文：数据流芯片造出来是比较好造的，关键难点是在这上面怎么样去建立一个可以对标 CUDA 的生态，我们的方法是从底层的抽象机开始入手，去构建抽象模型，然后基于此去做编程语言上的工作和编程工具的开发。

目前来看，数据流的学习成本是比较高的，数据流做起来编程方法和思考路径和原本的控制流冯诺伊曼架构是不一样的，门槛比较高，所以后续怎么较低学习成本是现阶段最需要思考的问题。

AI 科技评论：大集群优化也是个比较难的系统问题，在您看来，这当中有什么难点？你们有在做这方面的研究吗？解决了什么问题？

冷静文：现阶段万卡集群、千卡集群都已经研究得比较好了，主要就是做容错以及高效的 4D 并行等，现在大集群的演进方向，GPU 的高速互联域会做得越来越大。

就像英伟达的 GB200 的 NVL72 或者 NVL144 这种方案，就是在一个高速互联域里面集成 72 个 GPU 或者集成 144 个 GPU，这种大集群国内目前还是买不到的，一机八卡的 H100 国内有，大家可以在上面研究，多台服务器做 Scale-out 做成万卡也都可以，但是英伟达不是在这个技术路线上演进，他们做的有点像华为提的超节点概念，这种节点的优化未来会变得更加重要。

AI 科技评论：华为云前段时间也发布了 CloudMatrix 384 超节点，号称能够与英伟达的 NVL72 比肩，在您看来 CloudMatrix 384 有什么亮点？带来了哪些突破性进展？给国内生态带来了哪些助力？

冷静文：他们能和英伟达 NVL72 几乎同步发布，说明国内的思考是走在国际前列的。技术上的亮点在于互联的结构，华为做了一个统一的、互联的结构，可以让碎片化的通信统一，在编程生态上会有不少的帮助，不过我们现在也没有拿到这个超节点去使用，后续可能会在上面做更多研究。

AI 科技评论：目前，只有英伟达的芯片才能灵活实现 FP8 训练并收敛，国产芯片仍挣扎在 BF16/FP32 收敛困难的路上，新的 FP8/BF16/FP32 混合训练又给国产芯片设计加了一道新难关，从您这段时间的观察来看，国产芯片在 DeepSeek 之后突破进展如何了？还有哪些难题亟待突破？

冷静文：目前国内做AI芯片的包括两条路线，一种是类 CUDA 的架构，还有一些就是以相当于 CPU 去扩展做 CND的方法，如果大家只是照抄英伟达的设计方法会永远落后于他们，还是得有一些原创性的思考，做一些提前布局，可能在每一代的英伟达芯片里面大家都没有太关注过 BF16、FP16 这些，因为之前没有大模型的时候，大家觉得芯片里的算力已经够用了，再做 FP8、FP4 算力就冗余了，所以没有像英伟达那样提前把低位宽的算力把它堆上去，这一代的芯片都可能有同样的问题。

另外是在编程生态上，因为英伟达的生态比较开放，有很多开源社区，很多学者都在里面做优化，包括 DeepSeek绕过 CUDA 用 PTX 也是英伟达基于底下开放的虚拟指令集实现的。但是国产大家还是停留在推自己的方案，不希望让其他人去了解底下的设计、优化细节，所以我觉得国产要做起来，硬件是护城河，但是开放的生态也要做起来。

AI 科技评论：目前还有哪些系统问题是比较难且亟待解决的？你们后续的研究重点主要会聚焦于哪一块？

冷静文：系统方面目前比较难解决的问题一是在于大模型要做成 Agent 智能体的方式，会涉及到多次的调用，这当中会涉及到系统如何去支持的问题，包括思维链叠加上强化学习搜索的方法未来如何去做系统支持，但我们后续的研究重点可能不能那么侧重于系统，未来还是想聚焦于做芯片架构和硬件互联，包括数据流的芯片内部设计以及类似于超节点的高速互联域的硬件设计，目前这种硬件设计还在开发过程中。

AI 科技评论：那您觉得国内芯片厂商、系统厂商能给模型厂商带来哪些助力？DeepSeek 之后，国内该如何发挥各自所长推动大模型进一步发展呢？

冷静文：未来芯片、系统和模型厂商的协同会在两个方面。一是在新的模型架构的设计上，包括 MoE、NSA 模型以及块状稀疏模型、记忆体立方模型等等，这些在学术界都有新的进展，但是要做训练的话，还有很多文本、训练集还有机器规模的问题，现在学术界还做不到，所以做芯片、系统的还可以结合新的模型架构来尝试一下。另外就是继续推模型的小型化、轻量化，模型厂商可以反馈给芯片厂商一些新的设计思路和理念，可以进一步推动降本。

AI 科技评论：近期，英伟达 H20 出口受限也引发了大量关注，如果连最低端的英伟达芯片都进不来，国内会受到什么样的影响？针对于此，国产芯片厂商又能做些什么？

上交大冷静文：模型发展需要和芯片、系统厂商协同

相关资讯

「鲶鱼」DeepSeek 正在搅动上下游

国产 AI Infra 变革进行时：新势力正在崛起

万字长文总结：DeepSeek 引发的 AI Infra 变革正在「加速」丨GAIR Live