AI在线 AI在线

月之暗面发布首款自主智能体 Kimi-Researcher

月之暗面(Moonshot AI)今日推出其备受期待的 Kimi 研究功能,正式加入日益激烈的 AI 智能体(Agent)竞争。 据称,该功能在多项基准测试中表现出色,尤其在名为“人类终极考验”(Humanity's Last Exam,HLE)的测试中,其性能超越了谷歌和 OpenAI 的同类产品,一举登顶。 Kimi-Researcher:强大的多轮搜索与推理智能体Kimi 研究功能的核心是 Kimi-Researcher,这是一款擅长多轮搜索与推理的自主智能体。

月之暗面(Moonshot AI)今日推出其备受期待的 Kimi 研究功能,正式加入日益激烈的 AI 智能体(Agent)竞争。据称,该功能在多项基准测试中表现出色,尤其在名为“人类终极考验”(Humanity's Last Exam,HLE)的测试中,其性能超越了谷歌和 OpenAI 的同类产品,一举登顶。

QQ20250623-103851.png

Kimi-Researcher:强大的多轮搜索与推理智能体

Kimi 研究功能的核心是 Kimi-Researcher,这是一款擅长多轮搜索与推理的自主智能体。根据官方数据,在执行每个任务时,Kimi-Researcher 平均会进行23个推理步骤,并浏览 超过200个网址,展现出强大的信息处理和分析能力。

基准测试表现:HLE 登顶,RL 训练效果显著

Kimi-Researcher 基于 Kimi k-系列模型的内部版本构建,并完全通过 端到端的智能体强化学习(RL) 进行训练。在“人类终极考验”(HLE)这项测试中,它取得了26.9% 的 Pass@1得分率,达到了业界顶尖水平;其 Pass@4准确率更是高达40.17%。

值得注意的是,Kimi-Researcher 的 HLE 初始得分仅为8.6%,最终能达到26.9% 的高分,几乎完全得益于端到端的强化学习训练。月之暗面表示,这有力地证明了端到端智能体强化学习可以极大地推动智能体智能水平的提升。

此外,Kimi-Researcher 在多个复杂且具挑战性的真实世界基准测试中也表现出色。例如,在 xbench 测试(一套全新的、动态的、与专业需求对齐的测试套件)的 xbench-DeepSearch 项目上,Kimi-Researcher 取得了69% 的 Pass@1(4次运行平均值),其表现优于配备了搜索工具的 o3等模型。在针对多轮搜索推理(如 FRAMES、Seal-0)和事实性信息问答(如 SimpleQA)的基准测试中,Kimi-Researcher 同样表现出色。

QQ20250623-104025.png

开源计划与内测申请

月之暗面宣布,Kimi-Researcher 将于今日起逐步向用户开放,现在用户可以访问 kimi.com 申请内测。更令人振奋的是,未来几个月内,月之暗面将 开源 Kimi-Researcher 背后的基础预训练模型以及经过强化学习训练后的模型,这将为 AI 社区的发展带来重要贡献。

GitHub:https://moonshotai.github.io/Kimi-Researcher/

相关资讯

月之暗面Kimi推出Kimi-Researcher深度研究Agent 并开启内测

近日,月之暗面旗下的Kimi智能助手宣布其首个Agent产品——Kimi-Researcher(深度研究)正式开启小范围灰度测试。 这一基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代Agent模型,旨在为用户提供高效、深入的深度研究服务。 Kimi-Researcher在面对问题时,展现出强大的自主规划与执行能力。
6/21/2025 10:01:04 AM
AI在线

腾讯参与 Kimi 开发商月之暗面 3 亿美元融资?后者回应:不予置评

感谢今日有报道称,腾讯参与国内人工智能独角兽、Kimi 智能助手开发公司月之暗面(Moonshot AI)3 亿美元(AI在线备注:当前约 21.51 亿元人民币)的融资。对此,月之暗面回应澎湃新闻记者称:“对融资消息不予置评。”AI在线注意到,今年 2 月便有报道称,月之暗面已完成新一轮超 10 亿美元(当前约 71.71 亿元人民币)融资,投资方包括红杉中国、小红书、美团、阿里,老股东跟投。本轮融资后,月之暗面估值已达约 25 亿美元(当前约 179.26 亿元人民币),为国内大模型领域的头部企业之一。今年 5
8/5/2024 10:01:19 PM
浩渺

Kimi k1.6模型曝光:编程能力超越GPT-3,引领AI新风潮

最近,来自全球知名动态基准测试平台 LiveCodeBench 的信息显示,Kimi 最新发布的 k1.6模型在编程能力方面表现卓越,已经超越了 OpenAI 的 GPT-3(包括 o3mini 和 o1等版本),登上了性能排行榜的第一名。 这一消息无疑为科技界带来了激动与期待。 据月之暗面的研究员 Flood 透露,k1.6是在 k1.5的基础上进行训练和优化的,目前其性能仍在不断提升中。
2/27/2025 5:07:00 PM
AI在线
  • 1