AI在线 AI在线

谷歌发布 FACTS 基准:AI 模型准确性面临70% 天花板挑战

近日,谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件,旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。 该基准套件提供了一种全面的评估框架,特别适用于法律、金融和医疗等行业,其中准确性至关重要。 图源备注:图片由AI生成,图片授权服务商MidjourneyFACTS 基准将 “事实性” 定义为两个独特的操作场景:一是 “上下文事实性”,即依据提供的数据生成准确响应;二是 “世界知识事实性”,即从记忆或网络中检索信息。

近日,谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件,旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。该基准套件提供了一种全面的评估框架,特别适用于法律、金融和医疗等行业,其中准确性至关重要。

机器人打字

图源备注:图片由AI生成,图片授权服务商Midjourney

FACTS 基准将 “事实性” 定义为两个独特的操作场景:一是 “上下文事实性”,即依据提供的数据生成准确响应;二是 “世界知识事实性”,即从记忆或网络中检索信息。初步结果显示,包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在内的所有模型,在这一基准测试中均未能突破70% 的准确率。

FACTS 基准不仅限于简单的问答题,而是由四个不同的测试组成,模拟开发人员在生产中遇到的真实失败模式。这些测试包括:参数基准(内部知识)、搜索基准(工具使用)、多模态基准(视觉)和上下文基准。谷歌已向公众发布了3513个示例,而 Kaggle 则保留了一部分私有数据,以防开发人员在测试数据上进行训练。

根据初步测试结果,Gemini3Pro 以68.8% 的综合 FACTS 得分领先,其次是 Gemini2.5Pro(62.1%)和 OpenAI 的 GPT-5(61.8%)。特别是在 “搜索” 基准测试中,Gemini3Pro 的得分高达83.8%,而在 “参数” 测试中仅为76.4%。这表明,企业在构建知识检索增强生成(RAG)系统时,应将模型与搜索工具或向量数据库结合使用,以提高准确性。

然而,值得关注的是,在多模态任务中的表现普遍较低,即使是领先的 Gemini2.5Pro,在该类别中也仅得到了46.9% 的准确率。这一数据表明,当前的多模态 AI 在无人监督的数据提取上尚未成熟,企业在产品开发中需谨慎对待。

划重点:

🌟 所有评估模型的整体准确率均未超过70%,显示出未来发展的空间。

🔍 Gemini3Pro 在搜索任务中表现突出,但参数任务的准确率仍有待提升。

⚠️ 当前多模态 AI 模型在数据提取方面的准确性不足,企业需谨慎使用。

相关资讯

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

谷歌的 FACTS (Factual Consistency and Truthfulness Score) 团队与数据科学平台 Kaggle 于今日联合发布了 FACTS 基准测试套件。 这是一个旨在衡量生成式人工智能模型在企业任务中事实性 (Factuality) 和真实性的综合评估框架。 此举弥补了现有基准测试的重大缺陷——即只关注问题解决能力,而非输出信息与真实世界数据的客观一致性,特别是当信息嵌入在图像或图表中时。
12/11/2025 10:47:05 AM
AI在线

​维基百科发布 AI 训练数据集,旨在阻止爬虫抓取

维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。 这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。 该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。
4/18/2025 11:01:48 AM
AI在线

​Google Kaggle 举办 AI 国际象棋锦标赛,模型智力较量即将展开

在人工智能领域,围棋和国际象棋等战略游戏一直是测试模型推理能力的重要舞台。 最近,Google DeepMind 与 Kaggle 联合宣布,将于8月5日至7日举办一场 AI 国际象棋锦标赛。 这场比赛不仅汇聚了全球性能最强的人工智能模型,还将通过 Kaggle 全新推出的 Game Arena 平台进行直播,吸引了广泛的关注。
8/5/2025 3:01:52 PM
AI在线