AI在线 AI在线

事实性

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

谷歌的 FACTS (Factual Consistency and Truthfulness Score) 团队与数据科学平台 Kaggle 于今日联合发布了 FACTS 基准测试套件。 这是一个旨在衡量生成式人工智能模型在企业任务中事实性 (Factuality) 和真实性的综合评估框架。 此举弥补了现有基准测试的重大缺陷——即只关注问题解决能力,而非输出信息与真实世界数据的客观一致性,特别是当信息嵌入在图像或图表中时。
12/11/2025 10:47:05 AM
AI在线