AI在线 AI在线

LiveMCP‑101

杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注

研究概要:杜克大学与 Zoom 的研究者们推出了 LiveMCP-101,这是首个专门针对真实动态环境设计的 MCP-enabled Agent 评测基准。 该基准包含 101 个精心设计的任务,涵盖旅行规划,体育娱乐,软件工程等多种不同场景,要求 Agent 在多步骤、多工具协同的场景下完成任务。 实验结果显示,即使是最先进的模型在该基准上的成功率仍低于 60%,揭示了当前 LLM Agent 在实际部署中面临的关键挑战。
8/28/2025 6:53:00 PM
机器之心
  • 1