抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

在今年的音乐科技顶会 ISMIR 2021(International Society for Music Information Retrieval)上,字节跳动海外手艺团队有 7 篇论文入选,涵盖了音乐分类、音乐标签、音源别离、音乐构造综合等多个手艺方向。如今抖音已经成为音乐宣发的一个重要渠道。一支支音乐先在抖音上以短视频 BGM 火起来,再扩散到各大音乐平台上。抖音神曲甚至成了很多音乐平台的一个重要分类。有人说神曲能火是因为歌词和旋律简单,听得多了就印在脑子里。但是对一个有着海量用户、复杂多样内容场

在今年的音乐科技顶会 ISMIR 2021(International Society for Music Information Retrieval)上,字节跳动海外手艺团队有 7 篇论文入选,涵盖了音乐分类、音乐标签、音源别离、音乐构造综合等多个手艺方向。

如今抖音已经成为音乐宣发的一个重要渠道。一支支音乐先在抖音上以短视频 BGM 火起来,再扩散到各大音乐平台上。抖音神曲甚至成了很多音乐平台的一个重要分类。有人说神曲能火是因为歌词和旋律简单,听得多了就印在脑子里。但是对一个有着海量用户、复杂多样内容场景的短视频平台来说,如何让音乐更好地和短视频创作及互动融合在一起,绝不是一件简单的事。包括抖音在内,字节跳动旗下的众多短视频 / 音乐类应用已有存量亿级的曲库,音乐片断更高达数十亿量级。让海量音乐和海量用户更懂对方的,是一整套语音、音频和音乐的智能创作能力,即 SAMI (Speech, Audio and Music Intelligence)。就在今年的音乐科技顶会ISMIR 2021(International Society for Music Information Retrieval)上,字节跳动海外手艺团队有 7 篇论文入选,涵盖了音乐分类、音乐标签、音源别离、音乐构造综合等多个手艺方向。该团队成员分布在美国、英国等国家和地区,支持了字节系产品音乐的搜索、推荐、内容创作等场景,这些手艺恰恰揭示了一首首神曲是如何炼成的。音乐与视觉联动手艺,让创作更简单千万播放量的变装视频,原来人人都可以拍。音乐与视觉效果的联动,不断激发创作者发挥自己的无限想象。甚至只需上传照片,不需要任何的裁剪编辑,就可以变成属于自己的“视觉大片”。这个操作起来很简单的功能,逐渐成为了抖音素人用户的创作神器,极大程度上降低了视频拍摄门槛,让用户的创意充分展现出来。这些视频创作效果,是基于抖音音频算法手艺对音频内容的深度综合,结合视觉等算法手艺形成的。SpectTNT 就是一种新型的、专为音乐频谱提炼设计的深度进修模型。这项手艺可被用于视频编辑中的声乐旋律提炼和音乐构造综合,达到更好的音频和画面匹配效果。随着手艺的不断提升,该手艺还将用在音乐标记、和弦鉴别和节拍跟踪中,不断衍生出多种多样的视频玩法。ISMIR 2021 论文:SpecTNT: a Time-Frequency Transformer for Music AudioSpectTNT 模型的原理是将音频信号经过短时傅立叶变换,得到频谱图。然后,频谱图经过时间和频域的转换模型提炼高层次特征。模型本身包含残差构造,使得底层信息能够充分流入到高层中。

抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

以算法明白音乐,让曲库不再“庞大”当我们面对着海量音乐库,哪首歌曲才能唤醒此刻的心情?算法手艺,可以对音乐这一抽象的 “听觉艺术” 进行客观的综合及展示,大大提升用户发现音乐的效率。用户想给视频找个合适的配乐,往往通过标签分类进行查询,例如曲风就是最常见的分类。目前字节提出了一种半监督式的 Transformer音乐模型来实现音乐的标签化,实现海量音乐数据的曲风、相似性的归类。音乐标签化已广泛服务于Resso、抖音、剪映等产品的音乐推荐系统中。

抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

抖音音乐的标签搜索ISMIR 2021 论文:<  Semi-supervised Music Tagging Transformer >论文提出的半监督式 Transformer 音乐模型,能够突破传统卷积神经网络的一些表现,进一步提出了基于噪声进修和半监督进修的方法,充分利用有标记数据和无标注数据,大幅减少人工数据标注的工作量。该模型已经超越了现在大规模使用的深度残差网络表现。

抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

语种鉴别手艺提升多地区、多语种用户体验除了曲风、相似度等标签之外,在全球化环境下的音乐类应用,语种类型的鉴别也非常重要。字节的音乐语种鉴别系统,可快速分别一首歌中的中文、英语、印地语等几十种类别组成及占比。这项手艺正在为 Resso 的曲库提供语言鉴别服务。准确地向用户推送合适语种的音乐,已经被证实能有效提高多地区、多样化语种用户的留存率。ISMIR 2021 论文:<Listen, Read, and Identify: Multimodal Singing Language Identification of Music>字节提出的音乐语种鉴别,支持多模态作为系统的输入。基于音频的对数梅尔谱图,经过 50 层的深度残差网络提炼嵌入特征,并且支持使用音乐的一些构造化文本数据,例如专辑名等作为输入。经过一个语言鉴别模型输出嵌入特征。最后通过结合音频和元数据的多模态特征,经过全连接层输出预测的语言结果。

抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

自动和弦鉴别,帮 AI 成为创作能手除了最常见的 “标签化” 明白模式,字节的音乐明白算法,还注重对于音乐本身的内容构造综合,也是其音频算法的一大“法宝”。这一手艺,让产品更懂音乐也更会用音乐。对海量音乐 MIDI 的和弦的综合,不断发现好音乐背后的编曲奥秘,进而输出快速、大规模、高质量的和弦片断。这一手艺也为 AI 自动作曲系统提供了前置条件,帮助 AI 音乐创作出更符合大多数人喜爱的音乐片断。AI 创作的音乐已经在 TikTok、抖音等产品中被广泛运用。ISMIR 2021 论文:< A deep learning method for enforcing coherence in Automatic Chord Recognition>该手艺提出了一种能够鉴别音乐和弦的方法,可鉴别非常丰富的和弦种类,是一种基于神经网络的自回归蒸馏估计方法 NADE。经过详实的数据实测,该方案在一些经典的数据集上的和弦鉴别效果优于很多同类研究。

抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

音乐表征基本功:以对比进修降低数据成本除音乐和弦明白外,其他音乐构造综合的能力也必不可少。字节对音乐构造的明白更大程度上提高了音乐在 UGC 及 PUGC 视频场景中的使用效率,也促使着抖音成为“神曲创造机”。先明白音乐是如何 “表达” 的,才能对音乐进行更好地 “构造化” 综合,可以大幅降低音乐内容明白的门槛。字节提出的一种新型的音乐表征模型 CLMR,只需极少的数据标注,而且通用性很强。该模型已被应用到庞大的音乐数据集中,作为音乐标签、节奏提炼等的重要前置,极大地降低了成本。ISMIR 2021 论文:< Contrastive Learning of Musical Representations >CLMR 只需极少的数据标注,避免了监督进修中需要大量标签的情况,大幅降低了数据成本。通过对音频数据做出多种增强处理,并使用对比进修的方法,训练出音乐的通用表征。在多个音频分类的迁移进修任务上,CLMR 表征均取得了非常好的效果。

抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

音乐构造综合新办法,帮你发挥创作潜力人可以轻易地分辨出音乐中的高潮片断,并且可以自我发挥把一首 3 分钟的歌自然地哼到五六分钟,那么机器可以做到这么自然地过渡吗?西瓜的音频编辑场景中,已经用到了这项手艺,通过使用音乐构造综合算法,批量鉴别音乐中的高光、循环片断,能使得智能延长的效果更加自然,帮助用户随意延长或缩短音乐的长度,方便创作者发挥。

抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

西瓜音乐智能延长ISMIR 2021 论文:<Supervised Metric Learning for Music Structure Features>字节的音乐高光检测等手艺利用一种较为前沿的音乐构造综合方法,音频经过深度神经网络提出特征,提炼的特征会送到一个数据挖掘模块中继续综合。本文提出的方法已用在 HarmonixSet, SALAMI, RWC 等多个数据集上。

抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

除上述音乐明白手艺外,手艺团队还提供着音乐物料制作的能力支持,提升音乐在多样业务场景中的灵活性。例如音源别离手艺,能够把一首乐曲别离成人声及伴奏。在音视频编辑场景中,支持创作者给人声换个更优质的背景乐,或是提炼背景音乐,换成更优质的人声。音源别离是音乐信号处理里的关键手艺,该新模型效果超越大多数声音别离系统,并已在 TikTok 等场景中使用。ISMIR 2021 论文:< Decoupling Magnitude and Phase Estimation with Deep ResUNet for Music Source Separation>这项手艺的创新之处在于,作者们提出了一种同时估计幅度谱和相位谱的方法,提升了理想掩模方法的上限,进一步提出了一个 143 层的深度残差网络。实验表明,该系统在人声别离中取得了 8.98 dB 的值。

抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/dou-yin-shen-qu-na-me-duo-zi-jie-tiao-dong-shi-ru-he-wan/

(0)
上一篇 2021年 8月 12日 下午3:15
下一篇 2021年 8月 12日 下午4:23

相关推荐

  • 「讹诈」制作业

    搜集犯罪分子将注意力从消费者转移到了更大更肥的是鱼上——有钱、缺人、承受迅速恢复产能的巨大压力的制作业公司。然而,许多制作商都不准备好与世界上最致命的恶意软件作斗争,即使遭受进犯,要么轻描淡写,要么讳莫如深。尽管讹诈软件通常会带来巨大的成本,浪费时间和资源,给公司的声誉和品牌带来巨大的危害,并且会影响整个行业的看法,但是,随着制作商向产业4.0过渡,面对搜集威胁,他们比其他行业更准备不足。比如,只有不到三分之二的制作商拥有搜集宁静打算,但打算位于部门响应打算最底层。越来越多的制作业企业也没

    2021年 4月 8日
  • 归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3

    来自 Facebook AI 的研究者提出了 NormFormer,该模型能够更快地达到目标预训练的蛊惑度,更好地实现预训练蛊惑度和下游义务功能。

    2021年 10月 27日
  • 迷信机械进修的竞争和共识:博弈论方法如何导致更智能的人工智能

    编译/凯霞得益于空军迷信研究办公室的195 万美元赠款,马萨诸塞大学阿默斯特分校数学和统计系教授 Markos Katsoulakis 和 Luc Rey-Bellet,以及布朗大学的 Paul Dupuis 将在接下来的四年开发一种新的机械进修方法,超越对大数据的传统依赖。Markos KatsoulakisLuc Rey-Bellet传统的机械进修依赖于庞大的数据缓存,算法可以筛选这些数据以「训练」自己完成任务,从而产生基于数据的数学模型。但是,如果数据很少,或者生成足够多的数据成本太高,该怎么办呢?一种可能的

    2021年 10月 31日
  • Nature子刊:科学家在类脑芯片上实现类似LSTM的功能,能效高1000倍

    格拉茨技术大学的计算机科学家在 Nature 子刊上发表的一篇论文表明,他们找到了一种在神经形状芯片上放荡 LSTM 的方案,可以让类脑神经形状芯片上的 AI 算法能效提高约 1000 倍。随着智能手机的普及,手机游戏也越来越受欢迎。但视频游戏等程序会大量耗电耗能。与 GPU 等标准硬件相比,基于 spike 的神经形状芯片有望实现更节能的深度神经收集(DNN)。但这需要我们理解如何在基于 event 的稀疏触发机制(sparse firing regime)中放荡 DNN,否则神经形状芯片的节能优势就会丧失。比如

    2022年 5月 21日
  • 依图调理获全国首张孩子骨龄AI产物NMPA三类证

    近日,国家药品监督管理局(NMPA)正式批准杭州依图调理技能有限公司“孩子手部x射线影像骨龄协助评价软件”的第三类调理东西产物注册申请。这是国内第一张孩子骨龄AI产物三类证,该体系也成为目前唯一获批三类证的孩子骨龄AI产物。国家药品监督管理局调理东西技能审评中心发布的审评报告显示:试验东西的TW3-RUS和TW3-Carpal骨龄诊疗结果与金标准诊疗结果的绝对误差均值达到预期目标,同时软件操作便捷性、体系稳定性均为满意。临床试验无不良事件发生,无东西缺陷发生。骨龄是衡量青少年生长发育水平的重要目标,相较于身高、体重

    2021年 4月 2日
  • Creator 面对面 | 北大河图在希罕大模型训练架构上的几点探索

    河图是北京大学数据与智能实验室自研的一款分布式深度学习框架,兼顾创新性和可用性,这也是国内首个由高校自主研发的分布式深度学习系统。底层的算子实现到上层的模型设计完全是由河图团队自主实现。

    2022年 7月 13日
  • 经济学家看「数据」,何谓数据财产时代?

    「数据是一切的起点,华夏又是数据大国,这使得数据运作在华夏变得非常重要。」在昨日举行的2021BAAI智源大会首日全体大会上,清华大学国家金融研究院院长朱民发表了题为《数据财产时代》的主题演讲,剖析了数据的经济学属性和财产特性,阐释了数据财产化的意义和必要性,解读了数据财产化转型将面临的挑战和应对策略。本文整理了朱民博士演讲的部分内容,并在文末附有相关演讲资料。整理报道 | 齐健数据在今天的社会中无处不在,随着数据范围的扩大,数据利用的加深,人们开始愈发重视数据的经济学特征。数据的虚拟特性,使其可重复利用,且转移成

    2021年 6月 2日
  • 产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

    ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕,凭借在语音技术领域的扎实积累和前沿创新,京东科技集团的3篇论文已经被 ICASSP 2021接收。

    2021年 8月 25日
  • 初学迁徙进修,跟着知乎大V王晋东的这个火热开源项目来进修(赠书)

    如何从要领层面对现有的迁徙进修要领进行创新,从而可以在要领和应用层面使迁徙进修迈向新的高度?

    2021年 6月 11日
  • 做时光序列展望有必要用深度进修吗?事实证明,梯度提升返回树媲美甚至超越多个DNN模型

    在深度进修要领应用广泛的今天,所有范畴是不是非它不可呢?其实未必,在时光序列展望任务上,简略的呆板进修要领能够媲美甚至超越很多 DNN 模型。

    2022年 3月 6日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注