AI在线 AI在线

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

谷歌的 FACTS (Factual Consistency and Truthfulness Score) 团队与数据科学平台 Kaggle 于今日联合发布了 FACTS 基准测试套件。 这是一个旨在衡量生成式人工智能模型在企业任务中事实性 (Factuality) 和真实性的综合评估框架。 此举弥补了现有基准测试的重大缺陷——即只关注问题解决能力,而非输出信息与真实世界数据的客观一致性,特别是当信息嵌入在图像或图表中时。

 谷歌的 FACTS (Factual Consistency and Truthfulness Score) 团队与数据科学平台 Kaggle 于今日联合发布了 FACTS 基准测试套件。这是一个旨在衡量生成式人工智能模型在企业任务中事实性 (Factuality)真实性的综合评估框架。

此举弥补了现有基准测试的重大缺陷——即只关注问题解决能力,而非输出信息与真实世界数据的客观一致性,特别是当信息嵌入在图像或图表中时。对于法律、金融、医疗等对准确性要求极高的行业而言,FACTS 建立了一个关键的标准化衡量体系。

AI音乐 人工智能 (3)

核心发现:AI 距离“完美”仍有距离

FACTS 的初步结果向业界发出了明确信号:尽管模型越来越智能,但它们远非完美。包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在内的所有参测模型,在所有问题上的综合准确率均未能超过 70%

正如 FACTS 团队的新闻稿所指出的,这意味着未来仍有巨大的提升空间。对于技术领导者而言,目前的行业信息是:“信任但要核实” 的时代远未结束。

解构 FACTS:企业级故障模式的四大测试

FACTS 测试套件超越了简单的问答,由四个旨在模拟真实生产环境中的故障模式的子基准测试构成:

  1. 参数基准测试 (内部知识): 衡量模型仅依赖训练数据(内部记忆)回答问题的准确性。

  2. 搜索基准测试 (工具使用): 评估模型使用网络搜索工具检索和综合实时信息的能力(RAG 能力)。

  3. 多模态基准测试 (视觉): 衡量模型准确解释图表、示意图和图像,同时避免“幻觉”的能力。

  4. Grounding Benchmark v2(上下文): 评估模型严格遵循所提供的源文本(上下文)的能力。

为了防止模型“污染”,谷歌已向公众发布了3,513个示例,而 Kaggle 则负责维护防止训练的私有数据集。

排行榜:Gemini3Pro 领跑,但“多模态”成最大短板

初始排行榜显示,Gemini3Pro 以68.8% 的综合 FACTS 得分领先,但细分数据显示了模型在不同任务上的真实差距:

模型FACTS评分(平均值)搜索(RAG 能力)多模态(视觉)
Gemini3Pro68.8%83.8%46.1%
Gemini2.5Pro62.1%63.9%46.9%
GPT-561.8%77.7%44.1%
Grok453.6%75.3%25.7%
Claude4.5Opus51.3%73.2%39.2%

对技术栈的启示:RAG 系统的必要性

对构建 RAG(检索增强生成)系统的开发人员而言,数据验证了当前的企业架构标准:不要依赖模型的内部存储器来获取关键信息。

数据显示,模型的**“查找”能力 (搜索)** 远远优于其**“认知”能力 (参数化)。例如,Gemini3Pro 在搜索任务中得分高达83.8%,而在参数化任务中仅获得76.4%。FACTS 结果强烈建议,对于内部知识机器人,连接搜索工具或向量数据库是唯一**能将准确率提升到可接受生产水平的方法。

多模态警告:低于50% 的准确率

对于产品经理而言,最令人担忧的是多模态任务的低分。该项指标普遍偏低,即使是表现最好的 Gemini2.5Pro,准确率也仅为46.9%。由于任务涉及阅读图表、解读示意图,这表明多模态人工智能尚未准备好进行无监督数据提取。

如果产品路线图依赖 AI 自动从发票或财务图表中抓取数据而无需人工审核,那么系统将很可能引入高达三分之一的严重错误率。

结论:FACTS 将成采购新标杆

FACTS 基准测试很可能成为企业级 AI 模型采购领域的新标准。技术负责人应根据用例匹配的具体子基准测试进行评估:

  • 客户支持机器人: 关注 合规性评分(Gemini2.5Pro 在此项得分74.2%,高于 Gemini3Pro 的69.0%)。

  • 研究助手: 优先考虑 搜索评分

  • 图像分析工具: 务必极其谨慎,并假定原始模型在约三分之一的情况下可能会出错。

相关资讯

谷歌发布 FACTS 基准:AI 模型准确性面临70% 天花板挑战

近日,谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件,旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。 该基准套件提供了一种全面的评估框架,特别适用于法律、金融和医疗等行业,其中准确性至关重要。 图源备注:图片由AI生成,图片授权服务商MidjourneyFACTS 基准将 “事实性” 定义为两个独特的操作场景:一是 “上下文事实性”,即依据提供的数据生成准确响应;二是 “世界知识事实性”,即从记忆或网络中检索信息。
12/11/2025 12:15:54 PM
AI在线

​维基百科发布 AI 训练数据集,旨在阻止爬虫抓取

维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。 这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。 该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。
4/18/2025 11:01:48 AM
AI在线

​Google Kaggle 举办 AI 国际象棋锦标赛,模型智力较量即将展开

在人工智能领域,围棋和国际象棋等战略游戏一直是测试模型推理能力的重要舞台。 最近,Google DeepMind 与 Kaggle 联合宣布,将于8月5日至7日举办一场 AI 国际象棋锦标赛。 这场比赛不仅汇聚了全球性能最强的人工智能模型,还将通过 Kaggle 全新推出的 Game Arena 平台进行直播,吸引了广泛的关注。
8/5/2025 3:01:52 PM
AI在线