AI在线 AI在线

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

几千人盲投,Kimi K2 超越 DeepSeek 拿下全球开源第一! 歪果网友们直接炸了,评论区秒变夸夸打卡现场:今天,竞技场终于更新了 Kimi K2 的排名情况 ——开源第一,总榜第五,而且紧追马斯克 Grok 4 这样的顶尖闭源模型。 并且各类单项能力也不差,能和一水儿闭源模型打得有来有回:连续多轮对话并列第一,o3 和 Grok 4 均为第四;编程能力第二,和 GPT 4.5、Grok 4 持平;应对复杂提示词能力第二,和 o3、4o 位于同一梯队;……甚至眼尖的朋友也发现了,唯二闯入总榜 TOP 10 的开源模型都来自中国。

几千人盲投,Kimi K2 超越 DeepSeek 拿下全球开源第一!

歪果网友们直接炸了,评论区秒变夸夸打卡现场:

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

今天,竞技场终于更新了 Kimi K2 的排名情况 ——

开源第一,总榜第五,而且紧追马斯克 Grok 4 这样的顶尖闭源模型

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

并且各类单项能力也不差,能和一水儿闭源模型打得有来有回:

  • 连续多轮对话并列第一,o3 和 Grok 4 均为第四;

  • 编程能力第二,和 GPT 4.5、Grok 4 持平;

  • 应对复杂提示词能力第二,和 o3、4o 位于同一梯队;

  • ……

甚至眼尖的朋友也发现了,唯二闯入总榜 TOP 10 的开源模型都来自中国。(DeepSeek R1 总榜第 8)

当然了,即使抛开榜单不谈,Kimi 这款新模型过去一周也确实火热 ——

K2 过去一周真热啊

公开可查战绩包括但不限于下面这些:

从实打实的数据来看,发布这一周里,Kimi K2 在开源社区就获得了相当关注度和下载量。

GitHub 标星 5.6K,Hugging Face 下载量近 10 万,这还不算它在中国社区的应用。

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

连 AI 搜索引擎明星创企 Perplexity CEO 也亲自为它站台,并透露:

Kimi K2 在内部评估中表现出色,Perplexity 计划接下来基于 K2 模型进行后训练。

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

甚至由于访问的用户太多了,逼得 Kimi 官方也出来发公告:

访问量大 + 模型体积大,导致 API 过慢。

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

……

不过就在一片向好之时,人们关于“Kimi K2 采用了 DeepSeek V3 架构”的质疑声再度升温。

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

对此,我们也找到了 Kimi 团队成员关于 K2 架构的相关回应。

总结下来就是,确实继承了 DeepSeek V3 的架构,不过后续还有一系列参数调整。

p.s. 以下分享均来自知乎 @刘少伟,内容经概括总结如下~

一开始,他们尝试了各种架构方案,结果发现 V3 架构是最能打的(其他顶多旗鼓相当)。

所以问题就变成了,要不要为了不同而不同?

经过深思熟虑,团队给出了否定答案。理由有两点:

一是 V3 架构珠玉在前且已经经过大规模验证,没必要强行“标新立异”;二是自己和 DeepSeek 一样,训练和推理资源非常有限,而经过评估 V3 架构符合相关成本预算。

所以他们选择了完全继承 V3 架构,并引入适合自己的模型结构参数。

具体而言,K2 的结构参数改动有四点:

  • 增加专家数量:团队验证了在激活参数量不变的情况下,MoE 总参数增加仍有益于 loss 下降。

  • 注意力头 head 数减半:减少 head 数节省的成本,刚好抵消 MoE 参数变大带来的开销,且效果影响很小。

  • 只保留第一层 Dense:只保留第一层为 dense,其余都用 MoE,结果对推理几乎无影响。

  • 专家无分组:通过自由路由 + 动态重排(EPLB)可以应对负载不均衡,同时让专家组合更灵活,模型能力更强。

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

最终得到的推理方案就是,在相同专家数量下:

虽然总参数增大到 1.5 倍,但除去通信部分,理论的 prefill 和 decode 耗时都更小。即使考虑与通信 overlap 等复杂因素,这个方案也不会比 V3 有显著的成本增加。

就是说,这是一种更“精打细算”的结构调优。

而且这种放弃自己的模型架构路线,彻底走 DeepSeek 路线的做法,也被国内网友评价为“相当大胆”。

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

来源:知乎网友 @蛙哥

OK,以上关于 Kimi 和 DeepSeek 架构之争的问题落定后,我们再把目光拉回到这次最新排名。

开源追平 or 超越闭源 ing

一个很明显的趋势是:「开源 = 性能弱」的刻板印象正在被打破,开源模型已经越来越厉害了。

不仅榜单上的整体排名在上升,而且分数差距也越来越小。

仔细看,模型 TOP 10 总分均为 1400+,开源和闭源几乎可以看成位于同一起跑线。

而且这次拿下开源第一的 Kimi K2,总分已经非常接近 Grok 4、GPT 4.5 等顶尖闭源模型了。

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

换句话说,以前我们可能还要在模型能力和成本之间作取舍,但随着开源力量的崛起,多思考一秒钟都是对开源的不尊重(doge)。

与此同时,越来越多的行业人士也表达了对开源崛起的判断。

艾伦人工智能研究所研究科学家 Tim Dettmers 表示:

开源击败闭源将变得越来越普遍。

DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国

Perplexity CEO 也多次在公开场合表示:

开源模型将在塑造 AI 能力的全球扩散路径中扮演重要角色。它们对于因地制宜地定制和本地化 AI 体验至关重要。

而在已经逐渐崛起的开源模型领域,TOP 10 中唯二开源、且都是国产模型的含金量还在上升。

参考链接:

  • [1]https://x.com/lmarena_ai/status/1945866381880373490

  • [2]https://www.zhihu.com/question/1927140506573435010/answer/1927892108636849910

  • [3]https://zhuanlan.zhihu.com/p/1928863438324623337

本文来自微信公众号:量子位(ID:QbitAI),作者:一水

相关资讯

Kimi K2高速版发布 输出速度提升至每秒40 Tokens

Kimi开放平台发布Kimi K2 高速版。 新款模型命名为kimi-k2-turbo-preview,参数规模与现有kimi-k2 保持一致,但输出速度由每秒10 Tokens提升至每秒40 Tokens,显著提升使用效率。 此次升级旨在优化用户体验,满足更高实时性需求的应用场景。
8/1/2025 2:12:08 PM
AI在线

Kimi K2 高速版kimi-k2-turbo-preview发布 输出每秒 40 Tokens

kimi-k2-turbo-preview,即Kimi K2高速版正式发布。 据悉,该高速版模型在参数设置上与原版kimi-k2保持一致,但在性能上实现了显著提升,输出速度从原先的每秒10Tokens大幅跃升至每秒40Tokens,为用户带来更加流畅高效的使用体验。 为庆祝Kimi K2高速版的发布,官方特别推出限时5折特惠活动,该优惠将持续至9月1日,之后将恢复原价。
8/1/2025 2:12:12 PM
AI在线

Kimi K2 High-Speed Version Released, Output Speed Increased to 40 Tokens per Second

The Kimi Open Platform has launched Kimi K2 Speed Edition. The new model is named kimi-k2-turbo-preview, with the same parameter scale as the existing kimi-k2, but the output speed has increased from 10 Tokens per second to 40 Tokens per second, significantly improving usage efficiency. This upgrade aims to optimize user experience and meet application scenarios requiring higher real-time performance.
8/2/2025 4:35:53 PM
AI在线
  • 1