AI在线 AI在线

内含超 100 万小时多语种录音,MLCommons 推出大型音频数据集

这一名为 the Unsupervised People's Speech 的数据集资源来自 Archive.org,整体规模超 48 TB,大部分内容属于美式英语。

AI 工程联盟 MLCommons 当地时间 1 月 30 日宣布 the Unsupervised People's Speech 数据集,这一数据集包含超过 100 万小时的音频内容,有望为 AI 在音频领域的下一步发展奠定基础

内含超 100 万小时多语种录音,MLCommons 推出大型音频数据集

Unsupervised People's Speech 数据集的资源来自 Archive.org,由 MLCommons 和 HuggingFace 联合创建,未进行数据推理和预处理。

这一数据集整体规模超 48 TB。虽然 Unsupervised People's Speech 的内容以美式英语为主,但仍涵盖数十种语言;其中大多数音频的长度在 1 到 10 分钟之间,仅有 14 个超过了 100 小时。

内含超 100 万小时多语种录音,MLCommons 推出大型音频数据集

相关资讯

MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5

MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5

MLPerf Client 基准测试的诞生是 AMD、英特尔、微软、英伟达、高通和顶级 PC OEM 等利益相关方的合作成果。
12/12/2024 3:12:14 PM 溯波(实习)
为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

编辑 | ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choice questions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答(openQA
7/24/2024 2:36:00 PM ScienceAI
LANL将中子星并合用于人工智能训练模型

LANL将中子星并合用于人工智能训练模型

美国洛斯阿拉莫斯国家实验室(LANL)开发的中子星并合模拟正在为Polymathic AI合作项目做出重要贡献,该项目正在训练人工智能模型,以帮助推动看似不同领域的科学发现。 这些模拟准确地跟踪了宇宙中一些最具活力的事件的后果,为基础模型数据集提供了独特的代码,可以帮助训练人工智能模型,使其能够做出与天体物理学、生物学、声学、化学、流体动力学等领域相关的预测。 中子星并合是指两个中子星互相绕转,释放引力波,轨道能量损失,最终在剧烈碰撞、释放引力波暴之后合二为一。
12/19/2024 2:08:35 PM AI情报室