AI在线 AI在线

​维基百科发布 AI 训练数据集,旨在阻止爬虫抓取

维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。 这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。 该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。

维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。

维基百科

该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。维基媒体基金会表示,这份数据集以开放许可的方式发布,内容涵盖了研究摘要、简短描述、图像链接、信息框数据以及文章的各个部分,但不包括参考文献和音频文件等非文本元素。

维基媒体希望,Kaggle 用户能够通过这份数据集,获得更为便利的获取信息的方式,从而避免直接抓取原始文章文本所带来的技术挑战。随着越来越多的自动化 AI 程序对维基百科的访问,爬虫抓取行为正在给维基百科的服务器带来沉重负担。

Kaggle 的合作伙伴关系负责人布伦达・弗林表示,Kaggle 非常高兴能够成为维基媒体基金会数据的承载平台。她指出,Kaggle 致力于保持数据的可访问性、可用性和实用性,以服务更广泛的机器学习社区。

通过此次合作,维基百科不仅保护了自身资源,也为小型企业和独立数据科学家提供了更为便利的访问途径,推动了人工智能的发展和应用。

划重点:

🌐 维基百科与 Kaggle 合作,发布英语和法语的结构化数据集,旨在减少 AI 爬虫抓取行为。  

🗂️ 数据集包括研究摘要、简短描述和图像链接等,开放许可,便于 AI 开发者使用。  

🔧 Kaggle 承诺维护数据的可访问性,支持小企业和独立数据科学家的研究。

相关资讯

首个 AI Kaggle 特级大师诞生,OpenAI 的 o1-preview 夺 7 金封王

科技媒体 The Decoder 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习解决方案方面的能力。该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。
10/12/2024 1:51:58 PM
故渊

维基百科编辑强烈反对后,基金会叫停 AI 摘要计划

科技媒体 404Media 昨日(6 月 11 日)发布博文,报道称在维基百科编辑们的强烈反对下,维基媒体基金会(Wikimedia Foundation)宣布暂停测试 AI 文章摘要功能。
6/12/2025 2:01:59 PM
故渊

Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性

编辑 | 白菜叶可验证性是维基百科的核心内容政策:声明需要有引用的支持。维护和提高维基百科参考文献的质量是一项重要的挑战,迫切需要更好的工具来帮助人类完成这项工作。在这里,Samaya AI 和 Meta FAIR 的研究人员表明,可以借助由信息检索系统和语言模型提供支持的人工智能 (AI) 来解决改进参考的过程。这种基于神经网络的系统(这里称之为 SIDE)可以识别不太可能支持其主张的维基百科引文,然后从网络上推荐更好的引文。该团队在现有的维基百科参考资料上训练这个模型,因此从数千名维基百科编辑的贡献和综合智慧中
10/24/2023 11:25:00 AM
ScienceAI
  • 1