AI在线 AI在线

Kaggle

谷歌发布 FACTS 基准:AI 模型准确性面临70% 天花板挑战

近日,谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件,旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。 该基准套件提供了一种全面的评估框架,特别适用于法律、金融和医疗等行业,其中准确性至关重要。 图源备注:图片由AI生成,图片授权服务商MidjourneyFACTS 基准将 “事实性” 定义为两个独特的操作场景:一是 “上下文事实性”,即依据提供的数据生成准确响应;二是 “世界知识事实性”,即从记忆或网络中检索信息。
12/11/2025 12:15:54 PM
AI在线

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

谷歌的 FACTS (Factual Consistency and Truthfulness Score) 团队与数据科学平台 Kaggle 于今日联合发布了 FACTS 基准测试套件。 这是一个旨在衡量生成式人工智能模型在企业任务中事实性 (Factuality) 和真实性的综合评估框架。 此举弥补了现有基准测试的重大缺陷——即只关注问题解决能力,而非输出信息与真实世界数据的客观一致性,特别是当信息嵌入在图像或图表中时。
12/11/2025 10:47:05 AM
AI在线

​维基百科发布 AI 训练数据集,旨在阻止爬虫抓取

维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。 这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。 该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。
4/18/2025 11:01:48 AM
AI在线

首个 AI Kaggle 特级大师诞生,OpenAI 的 o1-preview 夺 7 金封王

科技媒体 The Decoder 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习解决方案方面的能力。该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。
10/12/2024 1:51:58 PM
故渊