AI在线 AI在线

​维基百科发布 AI 训练数据集,旨在阻止爬虫抓取

维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。 这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。 该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。

维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。

维基百科

该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。维基媒体基金会表示,这份数据集以开放许可的方式发布,内容涵盖了研究摘要、简短描述、图像链接、信息框数据以及文章的各个部分,但不包括参考文献和音频文件等非文本元素。

维基媒体希望,Kaggle 用户能够通过这份数据集,获得更为便利的获取信息的方式,从而避免直接抓取原始文章文本所带来的技术挑战。随着越来越多的自动化 AI 程序对维基百科的访问,爬虫抓取行为正在给维基百科的服务器带来沉重负担。

Kaggle 的合作伙伴关系负责人布伦达・弗林表示,Kaggle 非常高兴能够成为维基媒体基金会数据的承载平台。她指出,Kaggle 致力于保持数据的可访问性、可用性和实用性,以服务更广泛的机器学习社区。

通过此次合作,维基百科不仅保护了自身资源,也为小型企业和独立数据科学家提供了更为便利的访问途径,推动了人工智能的发展和应用。

划重点:

🌐 维基百科与 Kaggle 合作,发布英语和法语的结构化数据集,旨在减少 AI 爬虫抓取行为。  

🗂️ 数据集包括研究摘要、简短描述和图像链接等,开放许可,便于 AI 开发者使用。  

🔧 Kaggle 承诺维护数据的可访问性,支持小企业和独立数据科学家的研究。

相关资讯

​Google Kaggle 举办 AI 国际象棋锦标赛,模型智力较量即将展开

在人工智能领域,围棋和国际象棋等战略游戏一直是测试模型推理能力的重要舞台。 最近,Google DeepMind 与 Kaggle 联合宣布,将于8月5日至7日举办一场 AI 国际象棋锦标赛。 这场比赛不仅汇聚了全球性能最强的人工智能模型,还将通过 Kaggle 全新推出的 Game Arena 平台进行直播,吸引了广泛的关注。
8/5/2025 3:01:52 PM
AI在线

谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战

一场激动人心的 AI 国际象棋比赛即将开幕。 看够了研究者们天天在论文上刷新基准,是时候拉模型出来遛一遛,性能是不是真如传说中的碾压全场? 太平洋时间 8 月 5 日至 7 日,一场为期 3 天的 AI 国际象棋比赛让人无比期待。
8/5/2025 1:31:00 PM
机器之心

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

谷歌的 FACTS (Factual Consistency and Truthfulness Score) 团队与数据科学平台 Kaggle 于今日联合发布了 FACTS 基准测试套件。 这是一个旨在衡量生成式人工智能模型在企业任务中事实性 (Factuality) 和真实性的综合评估框架。 此举弥补了现有基准测试的重大缺陷——即只关注问题解决能力,而非输出信息与真实世界数据的客观一致性,特别是当信息嵌入在图像或图表中时。
12/11/2025 10:47:05 AM
AI在线