AI在线 AI在线

Yandex 发布最大音乐推荐开源数据集 Yambda

俄罗斯搜索巨头Yandex发布全球最大音乐推荐开源数据集Yambda,含47.9亿条匿名用户交互数据,覆盖939万首歌曲,助力开发者打造智能音乐服务。数据集分三种规模,最大需85GB存储空间。#音乐科技# #AI推荐#

俄罗斯搜索引擎巨头 Yandex 昨日发布了世界上最大的音乐推荐系统开源数据集 Yambda,包含 47.9 亿条匿名用户的交互数据,旨在帮助开发者创建智能音乐服务。

The free Yahdex Yambda dataset allows anyone to create their own music recommendation service. (Image source: Yandex)

Yandex 在十个月内收集了近 2800 万 Yandex Music 月度用户的数据,具体为用户与 939 万首歌曲的 47.9 亿次交互,数据集包括听众对歌曲好恶的关键反馈,所有交互都带有时间戳以提高准确度。

user history length

user history length log-scale

Yambda 在 Hugging Face 提供三种大小的数据集供自由下载:Yambda-5B(来自 100 万名用户的行为)、Yambda-500M(10 万用户)和 Yambda-50M(1 万用户)。其中规模最大的 5B 数据集至少需要 85 GB 存储空间

数据集包含音乐听众的偏好信息,以 Apache Parquet 格式存储,可用作研究用途或开发类似 Spotify 等流媒体服务提供的 AI 音乐推荐功能。

据AI在线了解,Spotify 和 Tidal 等流媒体服务通常不会发布其音乐推荐算法的代码或模型,因为推荐听众喜爱歌曲的能力被视为其成功的商业秘密。

相关资讯

Yandex 开发并开源 Perforator,这款开源工具每年可为企业节省数十亿美元的服务器基础设施成本

全球领先的科技公司 Yandex 开发并开源了 Perforator,这是一款用于对服务器和应用程序进行持续实时监控和分析的创新工具。 Perforator 帮助开发人员识别最占资源的代码部分,并提供详细的统计数据,以便进行后续优化。 通过识别代码中的低效部分并支持基于配置文件的优化,Perforator 提供了准确的数据,使企业能够手动优化其应用程序,根据公司规模,降低基础设施成本最多可达 20%。
2/10/2025 2:30:00 PM
新闻助手

从俄罗斯互联网巨头到AI基建黑马:Nebius如何用2.5GW算力改写全球AI竞赛格局?

在AI算力军备竞赛白热化的2025年,一家名不见经传的荷兰公司Nebius,以雷霆之势接连斩获微软194亿美元、Meta30亿美元的超级订单,震惊全球科技圈。 短短三个月内,这家“新锐”企业不仅营收同比暴增355%,股价更飙升210%,更放出豪言:到2026年建成2.5GW算力集群——相当于部署100万至125万块英伟达GPU,年耗电量逼近三峡大坝发电量的五分之一。 然而,Nebius并非横空出世的创业新秀,而是脱胎于俄罗斯互联网巨头Yandex的“凤凰重生”。
12/15/2025 3:01:19 PM
AI在线

俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练工具:大幅提升 GPU 利用率,对 Llama 3 可实现 26% 加速

俄罗斯科技巨头 Yandex 推出了一款开源的大语言模型训练工具 ——YaFSDP,号称与现有工具相比速度最高可提升 26%。据介绍,YaFSDP 在训练速度方面优于传统的 FSDP 方法,尤其适用于大型模型。在预训练 LLM 方面,YaFSDP 速度提高了 20%,并且在高内存压力条件下表现更佳。例如,YaFSDP 对具有 700 亿参数的 Llama 2 可以实现 21% 的效率提升,对具有同级参数的 Llama 3 也实现 了 26% 的效率提升。IT之家附官方数据一览:模型gpu-countseq-lenn
6/11/2024 6:03:24 PM
问舟