Kimi K2：开源智能体模型的巅峰之作

译者 | 李睿审校 | 重楼Moonshot最近推出新型开源智能体模型 Kimi K2，该模型总参数高达1万亿个，并拥有320亿个专家混合（MoE）架构。 Kimi K2有两种变体，在多个基准测试中表现出色。它具有预训练和训练后两种学习方法，还能学习采用工具。

译者 | 李睿

审校 | 重楼

Moonshot最近推出新型开源智能体模型 Kimi K2，该模型总参数高达1万亿个，并拥有320亿个专家混合（MoE）架构。Kimi K2有两种变体，在多个基准测试中表现出色。它具有预训练和训练后两种学习方法，还能学习采用工具。Kimi K2的大多数功能免费使用，其响应速度快、功能丰富，为通用人工智能系统的开发和应用铺平了道路。

今年早些时候，一些开源模型在生成式人工智能（GenAI）领域中涌现。虽然DeepSeek占据了大部分头条新闻，但Kimi K1.55也是其中的佼佼者。该模型相当出色。7个月后，Moonshot公司携其新型开源智能体模型Kimi K2卷土重来。Kimi K2的总参数达到1万亿个，并且拥有320亿个激活的专家混合（MoE）架构，其性能十分出色。

如上所述，Kimi K2是一款强大的新型开源模型，旨在处理复杂任务。凭借其先进的架构和智能决策能力，它不仅能对提示做出响应，还能采取实际行动。从编程到数据分析，它旨在让每个人都能使用高级人工智能工具。

Kimi K2有两种变体：

Kimi-K2-Base：这是一款功能强大的基础模型，适用于需要全面定制和微调功能的研究人员和开发人员。
Kimi-K2-Instruct：这是一款经过训练的指令遵循模型，适用于通用聊天和快速响应级别的智能体任务。

基准测试和性能

Kimi K2：开源智能体模型的巅峰之作

Kimi K2在以下基准测试中提供了更先进和开源的领先结果：

SWE-bench验证：65.8%的单次尝试准确率
SWE-bench多语言数据集：47.3%（在测试模型中表现最佳）
LiveCodeBench v6：53.7%
OJBench：27.1%
Tau2-bench（加权平均值）：66.1%
AceBench（英文）：80.1%
AIME 2025：49.5%
GPQA-Diamond：75.1%

这些分数凸显了Kimi K2在智能体编程、工具使用和复杂STEM任务方面的优势，其表现经常超越或与Claude和GPT-4等专有模型相当。

Kimi K2如何学习（预训练和后训练）？

想象一下，如果采用图书馆规模的大量书籍训练人工智能模型，这种学习方法称为预训练。Kimi K2阅读了15.5万亿个词元（token），是互联网训练数量的许多倍。Kimi K2可以尝试预测下一个单词，检查是否正确，并随着时间的推移不断改进。阅读的单词越多，表现就越好。

Kimi K2：开源智能体模型的巅峰之作

但有一点需要注意，人工编写的数据是有限的。因此，Kimi K2不仅通过阅读进行学习，还会主动学习。这种学习方法称为后训练。它从自己创造的经验中学习，例如尝试使用工具或完成任务，并评估自己的表现。

为了确保在学习大量数据时不会出现混淆，Kimi K2使用了一种名为MuonClip的特殊优化器。可以将它想象成为“训练教练”，负责保持平衡。其他模型在训练过程中有时会“崩溃”，这意味着它们的内部数学运算变得过于极端。MuonClip通过温和地控制那些可能失控的部分（查询/键矩阵），来防止这种情况发生，从而保持一切稳定可靠运行。

Kimi K2如何学习使用工具（像开发者一样）？

假设想让人工智能助手预订航班或编写代码。为此，它需要知道如何使用工具。Kimi K2通过模拟来学习使用这些工具。

Kimi K2：开源智能体模型的巅峰之作

其具体工作流程如下：

从一个目标开始（例如回答一个问题）。
创建一个域（主题或环境）。
添加真实或模拟的工具。
构建数百个尝试使用工具完成任务的智能体。
模拟与这些智能体交互的用户。
一位智能人工智能“裁判“检查它们的工作，并过滤掉不良内容。

这有助于Kimi K2在帮助真正的用户之前练习数千种不同的工具使用场景。

Kimi K2也采用强化学习，这就像学习一种游戏：正确操作就能得分。对于像数学或编程这样的任务，它可以检查自己是否正确。但对于写作或帮助用户这样的任务，没有“正确”的答案。所以Kimi K2充当自己的评审者。它会评估自己的表现，给自己反馈，并不断从中学习。它还利用数学等有明确正确答案的任务，来提高对模糊任务的评分能力。

如何访问？

可以通过几种方式访问Kimi K2，这取决于使用者是普通用户、开发人员还是基础设施运营人员：

在线使用Kimi K2

网站：https://www.kimi.com/
从模型选择器中选择Kimi K2（通常显示为“Kimi-K2”或“K2”）
无需安装；直接开始聊天或上传任务

通过API使用Kimi K2

访问Moonshot平台：https://platform.moonshot.cn
API与OpenAI/Anthropic兼容
支持工具使用和智能体工作流程
包括端点聊天、文件工具和智能体编排等
在本地或自有服务器上运行Kimi K2
模型权重：即将在GitHub和/或Hugging Face上开源

推荐的推理引擎：

a. vLLM

b.SGLang

c.KTransformers

d.TensorRT-LLM

如果用户正在进行微调、研究或内部扩展，这是理想的选择。

在下一节中，将使用该模型完成一些任务，并进行分析。

任务1：研究并撰写报告

提示：“根据生成式人工智能和智能体人工智能的最新趋势，请给我一份报告，说明2025年哪些技能与营销、银行、社交媒体、产品管理、软件开发、内容、人力资源和制造业等领域的专业人士相关。”

输出：

Kimi K2：开源智能体模型的巅峰之作

https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/GenAI-Skill-Analysis.mp4" type="video/mp4

分析结果：

研究部分做得很好，报告中使用的语言感觉很自然，整个对话都具有人情味。然而，它很难以PDF格式生成输出。

任务2：预订机票

提示：“我们公司总部在印度德里，我将于今年8月参加DataHack峰会。你能介绍一下峰会的情况，并帮我找到最便宜的航班选项吗？”

输出：

Kimi K2：开源智能体模型的巅峰之作

https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/DHS-Plan.mp4

分析：

活动细节准确无误，提供的酒店和航班信息也非常准确。这对行程规划非常有帮助。最棒的是，这一切都是完全免费的。

结论

Kimi K2回答问题的方式令人印象深刻，感觉就像在和人类交流。Kimi K2与众不同之处在于，其大多数高级功能都是免费的，而不像Manus、Genspark或OpenAI的Operator等其他平台需要付费订阅。Kimi K2响应迅速，并且能够处理各种任务的能力表明，它确实是一款强大的智能体模型。结合大规模训练、工具使用和自适应智能，它为能够思考、行动和适应的通用人工智能系统铺平了道路。

无论是构建编程智能体、进行现实世界的数据科学研究，还是构建下一代界面，Kimi K2都能提供强大的支持。

有关Kimi K2的常见问题

Q1: Kimi K2与其他开源模型有何不同？

答：Kimi K2因其智能体的功能而脱颖而出，这意味着它可以使用工具采取行动，而不仅仅是生成文本。它也是少数具有混合专家架构和开源可用性的模型之一。

Q2：可以免费使用Kimi K2吗？

答：是的，Kimi K2的许多功能都可以通过其网站和应用程序免费获得，而提供类似功能的其他平台则需要收费。

Q3：开发人员可以使用Kimi K2做些什么？

答：开发人员可以使用API将Kimi K2集成到他们的应用程序中，在本地硬件上运行，或者为自定义任务微调基本模型。它与vLLM和TensorRT-LLM等主要推理引擎兼容。

Q4：Kimi K2支持工具使用和编码任务吗？

答：当然支持。Kimi K2可以执行shell命令、编辑和部署代码、构建交互式网站，甚至可以使用游戏引擎。它针对工具交互和软件开发进行了优化。

原文标题：Kimi K2: The Most Powerful Open-Source Agentic Model，作者：Nitika Sharma