谷歌发布 FACTS 基准:AI 模型准确性面临70% 天花板挑战

作者：AI在线 2025-12-11 12:15

近日，谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件，旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。该基准套件提供了一种全面的评估框架，特别适用于法律、金融和医疗等行业，其中准确性至关重要。图源备注：图片由AI生成，图片授权服务商MidjourneyFACTS 基准将 “事实性” 定义为两个独特的操作场景:一是 “上下文事实性”，即依据提供的数据生成准确响应;二是 “世界知识事实性”，即从记忆或网络中检索信息。

近日，谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件，旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。该基准套件提供了一种全面的评估框架，特别适用于法律、金融和医疗等行业，其中准确性至关重要。

机器人打字

图源备注：图片由AI生成，图片授权服务商Midjourney

FACTS 基准将 “事实性” 定义为两个独特的操作场景:一是 “上下文事实性”，即依据提供的数据生成准确响应;二是 “世界知识事实性”，即从记忆或网络中检索信息。初步结果显示，包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在内的所有模型，在这一基准测试中均未能突破70% 的准确率。

FACTS 基准不仅限于简单的问答题，而是由四个不同的测试组成，模拟开发人员在生产中遇到的真实失败模式。这些测试包括:参数基准（内部知识）、搜索基准(工具使用)、多模态基准(视觉)和上下文基准。谷歌已向公众发布了3513个示例，而 Kaggle 则保留了一部分私有数据，以防开发人员在测试数据上进行训练。

根据初步测试结果，Gemini3Pro 以68.8% 的综合 FACTS 得分领先，其次是 Gemini2.5Pro（62.1%）和 OpenAI 的 GPT-5(61.8%)。特别是在 “搜索” 基准测试中，Gemini3Pro 的得分高达83.8%，而在 “参数” 测试中仅为76.4%。这表明，企业在构建知识检索增强生成(RAG)系统时，应将模型与搜索工具或向量数据库结合使用，以提高准确性。

然而，值得关注的是，在多模态任务中的表现普遍较低，即使是领先的 Gemini2.5Pro，在该类别中也仅得到了46.9% 的准确率。这一数据表明，当前的多模态 AI 在无人监督的数据提取上尚未成熟，企业在产品开发中需谨慎对待。