抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

在今年的音乐科技顶会 ISMIR 2021(International Society for Music Information Retrieval)上，字节跳动海外技能团队有 7 篇论文入选，涵盖了音乐分类、音乐标签、音源分散、音乐布局剖析等多个技能方向。如今抖音已经成为音乐宣发的一个重要渠道。一支支音乐先在抖音上以短视频 BGM 火起来，再扩散到各大音乐平台上。抖音神曲甚至成了很多音乐平台的一个重要分类。有人说神曲能火是因为歌词和旋律简单，听得多了就印在脑子里。但是对一个有着海量用户、复杂多样内容场景的短视频

在今年的音乐科技顶会 ISMIR 2021(International Society for Music Information Retrieval)上，字节跳动海外技能团队有 7 篇论文入选，涵盖了音乐分类、音乐标签、音源分散、音乐布局剖析等多个技能方向。

如今抖音已经成为音乐宣发的一个重要渠道。一支支音乐先在抖音上以短视频 BGM 火起来，再扩散到各大音乐平台上。抖音神曲甚至成了很多音乐平台的一个重要分类。

有人说神曲能火是因为歌词和旋律简单，听得多了就印在脑子里。但是对一个有着海量用户、复杂多样内容场景的短视频平台来说，如何让音乐更好地和短视频创作及互动融合在一起，绝不是一件简单的事。

包括抖音在内，字节跳动旗下的众多短视频 / 音乐类应用已有存量亿级的曲库，音乐片断更高达数十亿量级。让海量音乐和海量用户更懂对方的，是一整套语音、音频和音乐的智能创作能力，即 SAMI （Speech, Audio and Music Intelligence）。

就在今年的音乐科技顶会ISMIR 2021(International Society for Music Information Retrieval)上，字节跳动海外技能团队有 7 篇论文入选，涵盖了音乐分类、音乐标签、音源分散、音乐布局剖析等多个技能方向。该团队成员分布在美国、英国等国家和地区，支持了字节系产品音乐的搜索、推荐、内容创作等场景，这些技能恰恰揭示了一首首神曲是如何炼成的。

音乐与视觉联动技能，让创作更简单

千万播放量的变装视频，原来人人都可以拍。音乐与视觉效果的联动，不断激发创作者发挥自己的无限想象。甚至只需上传照片，不需要任何的裁剪编辑，就可以变成属于自己的“视觉大片”。这个操作起来很简单的功能，逐渐成为了抖音素人用户的创作神器，极大程度上降低了视频拍摄门槛，让用户的创意充分展现出来。

这些视频创作效果，是基于抖音音频算法技能对音频内容的深度剖析，结合视觉等算法技能形成的。SpectTNT 就是一种新型的、专为音乐频谱提炼设计的深度进修模型。这项技能可被用于视频编辑中的声乐旋律提炼和音乐布局剖析，达到更好的音频和画面匹配效果。随着技能的不断提升，该技能还将用在音乐标记、和弦辨别和节拍跟踪中，不断衍生出多种多样的视频玩法。

ISMIR 2021 论文：SpecTNT: a Time-Frequency Transformer for Music Audio

SpectTNT 模型的原理是将音频信号经过短时傅立叶变换，得到频谱图。然后，频谱图经过时间和频域的转换模型提炼高层次特征。模型本身包含残差布局，使得底层信息能够充分流入到高层中。

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

以算法懂得音乐，让曲库不再“庞大”

当我们面对着海量音乐库，哪首歌曲才能唤醒此刻的心情？算法技能，可以对音乐这一抽象的 “听觉艺术” 进行客观的剖析及展示，大大提升用户发现音乐的效率。

用户想给视频找个合适的配乐，往往通过标签分类进行查询，例如曲风就是最常见的分类。目前字节提出了一种半监督式的 Transformer音乐模型来实现音乐的标签化，实现海量音乐数据的曲风、相似性的归类。音乐标签化已广泛服务于Resso、抖音、剪映等产品的音乐推荐系统中。

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

抖音音乐的标签搜索

ISMIR 2021 论文：< Semi-supervised Music Tagging Transformer >

论文提出的半监督式 Transformer 音乐模型，能够突破传统卷积神经网络的一些表现，进一步提出了基于噪声进修和半监督进修的方法，充分利用有标记数据和无标注数据，大幅减少人工数据标注的工作量。该模型已经超越了现在大规模使用的深度残差网络表现。

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

语种辨别技能提升多地区、多语种用户体验

除了曲风、相似度等标签之外，在全球化环境下的音乐类应用，语种类型的辨别也非常重要。字节的音乐语种辨别系统，可快速分别一首歌中的中文、英语、印地语等几十种类别组成及占比。这项技能正在为 Resso 的曲库提供语言辨别服务。准确地向用户推送合适语种的音乐，已经被证实能有效提高多地区、多样化语种用户的留存率。

ISMIR 2021 论文：<Listen, Read, and Identify: Multimodal Singing Language Identification of Music>

字节提出的音乐语种辨别，支持多模态作为系统的输入。基于音频的对数梅尔谱图，经过 50 层的深度残差网络提炼嵌入特征，并且支持使用音乐的一些布局化文本数据，例如专辑名等作为输入。经过一个语言辨别模型输出嵌入特征。最后通过结合音频和元数据的多模态特征，经过全连接层输出预测的语言结果。

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

自动和弦辨别，帮 AI 成为创作能手

除了最常见的 “标签化” 懂得模式，字节的音乐懂得算法，还注重对于音乐本身的内容布局剖析，也是其音频算法的一大“法宝”。这一技能，让产品更懂音乐也更会用音乐。

对海量音乐 MIDI 的和弦的剖析，不断发现好音乐背后的编曲奥秘，进而输出快速、大规模、高质量的和弦片断。这一技能也为 AI 自动作曲系统提供了前置条件，帮助 AI 音乐创作出更符合大多数人喜爱的音乐片断。AI 创作的音乐已经在 TikTok、抖音等产品中被广泛运用。

ISMIR 2021 论文：< A deep learning method for enforcing coherence in Automatic Chord Recognition>

该技能提出了一种能够辨别音乐和弦的方法，可辨别非常丰富的和弦种类，是一种基于神经网络的自回归蒸馏估计方法 NADE。经过详实的数据实测，该方案在一些经典的数据集上的和弦辨别效果优于很多同类研究。

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

音乐表征基本功：以对比进修降低数据成本

除音乐和弦懂得外，其他音乐布局剖析的能力也必不可少。字节对音乐布局的懂得更大程度上提高了音乐在 UGC 及 PUGC 视频场景中的使用效率，也促使着抖音成为“神曲创造机”。

先懂得音乐是如何 “表达” 的，才能对音乐进行更好地 “布局化” 剖析，可以大幅降低音乐内容懂得的门槛。字节提出的一种新型的音乐表征模型 CLMR，只需极少的数据标注，而且通用性很强。该模型已被应用到庞大的音乐数据集中，作为音乐标签、节奏提炼等的重要前置，极大地降低了成本。

ISMIR 2021 论文：< Contrastive Learning of Musical Representations >

CLMR 只需极少的数据标注，避免了监督进修中需要大量标签的情况，大幅降低了数据成本。通过对音频数据做出多种增强处理，并使用对比进修的方法，训练出音乐的通用表征。在多个音频分类的迁移进修任务上，CLMR 表征均取得了非常好的效果。

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

音乐布局剖析新办法，帮你发挥创作潜力

人可以轻易地分辨出音乐中的高潮片断，并且可以自我发挥把一首 3 分钟的歌自然地哼到五六分钟，那么机器可以做到这么自然地过渡吗？

西瓜的音频编辑场景中，已经用到了这项技能，通过使用音乐布局剖析算法，批量辨别音乐中的高光、循环片断，能使得智能延长的效果更加自然，帮助用户随意延长或缩短音乐的长度，方便创作者发挥。

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

西瓜音乐智能延长

ISMIR 2021 论文：<Supervised Metric Learning for Music Structure Features>

字节的音乐高光检测等技能利用一种较为前沿的音乐布局剖析方法，音频经过深度神经网络提出特征，提炼的特征会送到一个数据挖掘模块中继续剖析。本文提出的方法已用在 HarmonixSet, SALAMI, RWC 等多个数据集上。

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

除上述音乐懂得技能外，技能团队还提供着音乐物料制作的能力支持，提升音乐在多样业务场景中的灵活性。

例如音源分散技能，能够把一首乐曲分散成人声及伴奏。在音视频编辑场景中，支持创作者给人声换个更优质的背景乐，或是提炼背景音乐，换成更优质的人声。音源分散是音乐信号处理里的关键技能，该新模型效果超越大多数声音分散系统，并已在 TikTok 等场景中使用。

ISMIR 2021 论文：< Decoupling Magnitude and Phase Estimation with Deep ResUNet for Music Source Separation>

这项技能的创新之处在于，作者们提出了一种同时估计幅度谱和相位谱的方法，提升了理想掩模方法的上限，进一步提出了一个 143 层的深度残差网络。实验表明，该系统在人声分散中取得了 8.98 dB 的值。

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

{{userData.name}}已认证

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

动手画个二次元妻子，上科大团队这个APP刚上线就火出圈，网友：我学废了

AI「读图会心」首超人类！阿里达摩院刷新全球VQA纪录

独家对话李岩：宿华、经纬、红点资金支持，第一个「生成式推荐」创业公司｜AI Pioneers

墙裂推荐！Karpathy大模型培训课LLM101n上线了，非常基础

baidu李彦宏：开源模型是智商税，闭源模型更强大、推理本钱更低

Midjourney 再更新！V6 模型支持外绘拓展与局部重绘了!

Python 3.11正式版来了，比3.10快10-60%，官方：这或许是最好的版本

无需训练，主动扩大的视觉Transformer来了

教授何恺明在MIT的第一堂课

用魔法打败魔法，电信公司已部署 AI 遏制诈骗电话