谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

作者：故渊 2024-12-18 01:24

12 月 18 日消息，谷歌 DeepMind 团队于 12 月 17 日发布博文，宣布推出 FACTS Grounding 基准测试，评估大型语言模型（LLMs）根据给定材料是否准确作答，并避免“幻觉”（即捏造信息）的能力，从而提升 LLMs 的事实准确性，增强用户信任度，并拓展其应用范围。数据集在数据集方面，ACTS Grounding 数据集包含 1719 个示例，涵盖金融、科技、零售、医疗和法律等多个领域，每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。示例文档长度不一，最长可达 32000 个 token（约 20000 字）。

12 月 18 日消息，谷歌 DeepMind 团队于 12 月 17 日发布博文，宣布推出 FACTS Grounding 基准测试，评估大型语言模型（LLMs）根据给定材料是否准确作答，并避免“幻觉”（即捏造信息）的能力，从而提升 LLMs 的事实准确性，增强用户信任度，并拓展其应用范围。

数据集

在数据集方面，ACTS Grounding 数据集包含 1719 个示例，涵盖金融、科技、零售、医疗和法律等多个领域，每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。

示例文档长度不一，最长可达 32000 个 token（约 20000 字）。用户请求涵盖摘要、问答生成和改写等任务，但不包含需要创造力、数学或复杂推理的任务。IT之家附上演示图片如下：

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

数据集分为 860 个“公共”示例和 859 个“私有”示例，目前已发布公共数据集供评估使用，私有数据集用于排行榜评分，以防止基准污染和排行榜作弊。

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

评估方案

在评估方案上，FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作为评委，评估答案的充分性、事实准确性和文档支持性。

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

评估分为两个阶段：首先评估响应是否符合资格，即是否充分回答了用户请求；然后评估响应的事实准确性，即是否完全基于所提供的文档，有没有出现“幻觉”，然后基于该模型在所有示例上的平均得分，最终计算得出。

在 FACTS Grounding Benchmark 中，谷歌的 Gemini 模型在事实准确的文本生成方面取得了最高分。

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

IT之家附上参考地址

Google DeepMind launches new AI fact-checking benchmark with Gemini in the lead
FACTS Grounding: A new benchmark for evaluating the factuality of large language models

谷歌放大招！LMEval开源评测框架上线，AI模型比拼从此更透明

近日，谷歌正式发布了开源框架 LMEval，旨在为大语言模型（LLM）和多模态模型提供标准化的评测工具。这一框架的推出，不仅简化了跨平台模型性能比较，还支持文本、图像和代码等多领域的评估，展现了谷歌在AI评测领域的最新突破。 AIbase为您整理了LMEval的最新动态及其对AI行业的影响。

5/29/2025 12:01:03 PM AI在线

谷歌计划 12 月发布全新 AI 模型 Gemini 3.0，性能将大幅提升

根据最新报道，谷歌公司正在积极筹备其旗舰 AI 模型 Gemini 的最新版本 ——Gemini3.0，并计划于今年12月正式发布。此版本的推出将延续谷歌过去两年在年底发布 Gemini 系列产品的传统。 Gemini3.0备受期待，业内人士预测该模型将实现显著的性能提升，进一步提升谷歌在 AI 领域的竞争力。

10/20/2025 6:06:56 PM AI在线

Yupp 平台上线：邀用户低成本使用业界各大 AI 模型，收集评测反馈构建排行榜

Yupp AI推出人工评测系统，邀请用户免费体验500+AI大模型并参与评测，生成Yupp AI VIBE排行榜。新用户注册即送5000积分，可对比不同模型回答优劣。#AI评测##大模型#

6/23/2025 2:15:43 PM 漾仔

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

数据集

评估方案

相关资讯

谷歌放大招！LMEval开源评测框架上线，AI模型比拼从此更透明

谷歌计划 12 月发布全新 AI 模型 Gemini 3.0，性能将大幅提升

Yupp 平台上线：邀用户低成本使用业界各大 AI 模型，收集评测反馈构建排行榜