AI在线 AI在线

Kimi-Researcher 深度研究模型开启内测:可生成易追溯的万字报告

Kimi-Researcher 是基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,也是一个专为深度研究任务而生的 Agent 产品。

AI在线从月之暗面 Kimi 公众号获悉,Kimi 的第一个 Agent(智能体)Kimi-Researcher 于 20 日开启小范围灰度测试

图片

Kimi-Researcher 是基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,也是一个专为深度研究任务而生的 Agent 产品。其后,月之暗面也将逐步开源 Kimi-Researcher 基础预训练模型及强化学习后的模型。

对于每一个问题,Kimi-Researcher 都会自主规划任务执行流程,最终交付完整结果:

  • 澄清问题(clarification):理解问题时主动反问,构建更清晰的问题空间;

  • 深入思考:每个任务平均进行 23 步推理,自主梳理并解决需求;

  • 主动搜索:每个任务,平均规划 74 个关键词,找到 206 个网址,由模型判断并筛选出信息质量最高的前 3.2% 内容,剔除冗余、低质信息;

  • 调用工具,交付结果:自主调用浏览器、代码等工具,处理原始数据、自动生成分析结论,端到端完成交付。

为了保证输出的质量和信息覆盖度,Kimi-Researcher 采用异步执行方式,用更多时间逐步推理、检索和撰写内容。

图片

用户最终将收到 2 个交付成果。

一份信息详实、可溯源的深度研究报告

  • 报告的平均长度在万字以上

  • 平均引用约 26 个高质量、可溯源的信源;

  • 所有引用都内嵌在正文中,点击即可跳转,并高亮原文,便于验证与追溯。

图片

一个可交互、可分享的动态可视化报告

  • 结构化排版、思维导图,让趋势、异常等重要信息一眼可见;

  • 无需阅读全文,也能迅速把握整体结构与核心结论;

  • 支持在线生成链接并分享,方便展示。

图片

官方宣布,在专为 AI 设计的高难度 benchmark“人类最后一次考试(Humanity's Last Exam,HLE)”中,Kimi-Researcher 在完全零结构、无流程设计的设置下,得分如下:

  • Pass@1 准确率:26.9%

  • Pass@4 准确率:40.17%

这一表现超过了 Claude 4 Opus(10.7%)、Gemini 2.5 Pro(21.6%),略高于 OpenAI Deep Research(26.6%),和 Gemini-Pro 的 Deep Research Agent(26.9%)打平,是目前已知最高水平之一。在红杉中国发布的 xbench 基准测试中 —— 一套对齐真实任务场景的 AI 能力评估体系,Kimi-Researcher 在 DeepSearch 任务中取得 69% 的平均通过率,领先该榜中其他模型。

图片

相关资讯

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

2025 年 1 月 20 日 Kimi k1.5 正式发布,伴随着技术报告的公布,有网友表示:“这应该是全球范围内,除 OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能了吧! ”一时间,Kimi k1.5 成了话题王者。 但在一个月后的 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的技术爆料帖,博主直言 k1.5 所用到的强化学习算法,其实是借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的技术。
2/27/2025 2:22:00 PM
郑佳美

月之暗面发布 Kimi k1.5 多模态思考模型,实现 SOTA 级多模态推理能力

官方表示,在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。
1/20/2025 10:26:19 PM
清源

月之暗面因 DeepSeek 调整工作重心?内部人士:强化学习或许会是个方向

2 月 15 日下午消息,据媒体报道,月之暗面内部已经将“持续拿到 SOTA 结果”确定为当下最重要的工作目标。2025 年,月之暗面围绕模型能力的关键方向除了继续强化多模态部分外,还会继续强化长文本推理能力。
2/15/2025 4:51:20 PM
凌辰
  • 1