AI在线 AI在线

τ-bench

什么都不做就能得分?智能体基准测试出现大问题

都在研究考生,考卷出问题了。 基准测试在评估人工智能系统的优势与局限性方面具有基础性作用,是引导科研与产业发展的关键工具。 随着 AI 智能体从研究原型逐步走向关键任务的实际应用,研究人员和从业者开始构建用于评估 AI 智能体能力与局限性的基准测试。
7/15/2025 2:48:00 PM
机器之心
  • 1