内含超 100 万小时多语种录音，MLCommons 推出大型音频数据集

作者：溯波（实习） 2025-02-10 06:07

这一名为 the Unsupervised People's Speech 的数据集资源来自 Archive.org，整体规模超 48 TB，大部分内容属于美式英语。

AI 工程联盟 MLCommons 当地时间 1 月 30 日宣布 the Unsupervised People's Speech 数据集，这一数据集包含超过 100 万小时的音频内容，有望为 AI 在音频领域的下一步发展奠定基础。

Unsupervised People's Speech 数据集的资源来自 Archive.org，由 MLCommons 和 HuggingFace 联合创建，未进行数据推理和预处理。

这一数据集整体规模超 48 TB。虽然 Unsupervised People's Speech 的内容以美式英语为主，但仍涵盖数十种语言；其中大多数音频的长度在 1 到 10 分钟之间，仅有 14 个超过了 100 小时。

内含超 100 万小时多语种录音，MLCommons 推出大型音频数据集

为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

编辑 | ScienceAI问答（QA）数据集在推动自然语言处理（NLP）研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型，也可以有效评估大语言模型（LLM）的能力，尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集，涵盖了医学、化学、生物等领域，但这些数据集仍存在一些不足。其一，数据形式较为单一，大多数为多项选择题（multiple-choice questions），它们易于进行评估，但限制了模型的答案选择范围，无法充分测试模型的科学问题解答能力。相比之下，开放式问答(openQA

7/24/2024 2:36:00 PM ScienceAI

LANL将中子星并合用于人工智能训练模型

美国洛斯阿拉莫斯国家实验室（LANL）开发的中子星并合模拟正在为Polymathic AI合作项目做出重要贡献，该项目正在训练人工智能模型，以帮助推动看似不同领域的科学发现。这些模拟准确地跟踪了宇宙中一些最具活力的事件的后果，为基础模型数据集提供了独特的代码，可以帮助训练人工智能模型，使其能够做出与天体物理学、生物学、声学、化学、流体动力学等领域相关的预测。中子星并合是指两个中子星互相绕转，释放引力波，轨道能量损失，最终在剧烈碰撞、释放引力波暴之后合二为一。

12/19/2024 2:08:35 PM AI情报室

内含超 100 万小时多语种录音，MLCommons 推出大型音频数据集

相关资讯

MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5

为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

LANL将中子星并合用于人工智能训练模型