网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

机器之心专栏网易云信音频实验室网易云信音频实验室自主研发了一个针对瞬态噪声的轻量级网络音频降噪算法(网易云信 AI 音频降噪),对于 Non-stationary Noise 和 Transient Noise 都有很好的降噪量,并且控制了语音旗号的损伤程度,保证了语音的质量和理解度。鉴于旗号处理的传统音频降噪算法对于 Stationary Noise(平稳噪声)有比较好的降噪结果。但是对于 Non-stationary Noise(非平稳噪声),特别是 Transient Noise(突发噪声)降噪结果较差,而且

机器之心专栏

网易云信音频实验室网易云信音频实验室自主研发了一个针对瞬态噪声的轻量级网络音频降噪算法(网易云信 AI 音频降噪),对于 Non-stationary Noise 和 Transient Noise 都有很好的降噪量,并且控制了语音旗号的损伤程度,保证了语音的质量和理解度。

鉴于旗号处理的传统音频降噪算法对于 Stationary Noise(平稳噪声)有比较好的降噪结果。但是对于 Non-stationary Noise(非平稳噪声),特别是 Transient Noise(突发噪声)降噪结果较差,而且有些方法对于语音也有较大的损伤。随着深度进修在 CV(Computer Vision)上的广泛应用,鉴于神经网络的音频降噪算法大量涌现,这些算法很好的弥补了传统算法对于 Non-stationary Noise 降噪结果不好的问题,在 Transient Noise 上也有较大的提升。但是,鉴于神经网络的音频降噪在估计复杂度上存在挑战。虽然我们生活中的终端设备的估计能力在不断提升,比如个人笔记本、手机等,但是大模型的深度进修算法,很难在绝大部分设备(特别是不含 GPU 的设备)上运行。目前也有一些开源的、鉴于神经网络的低开销降噪算法[1,2,3],能够在大部分终端设备上达到实时运行的标准。但是这些算法的运算量对于 RTC(实时通信)的 SDK 依然太大,其原因是 SDK 中包含了大量算法,每个子算法的开销都必须严格把控,才能保证整个 SDK 的运算开销在一个合理范围,并且能够在大部分终端设备上运行。针对上述挑战,网易云信音频实验室自主研发了一个针对瞬态噪声的轻量级网络音频降噪算法(网易云信 AI 音频降噪),对于 Non-stationary Noise 和 Transient Noise 都有很好的降噪量,并且控制了语音旗号的损伤程度,保证了语音的质量和理解度。与此同时,云信的 AI 音频降噪将估计开销控制在一个非常低的量级,达到了和传统算法接近的估计量,比如 MMSE [4]。目前,网易云信的 AI 音频降噪已经成功落地在其自研的新一代音视频技术架构(NERTC)中,在大幅提升降噪结果的同时,也在大多数终端机型上成功应用,包括了大部分中低端机型。本文介绍的内容,即网易云信音频实验室发表于 INTER-NOISE 2021 的《A Neural Network Based Noise Suppression Method for Transient Noise Control with Low-Complexity Computation》一文,本篇文章详细介绍了在鉴于深度进修的音频降噪算法中,如何在低估计开销的情况下,实现对不同噪声,包括 Transient Noise 的抑制。方法在介绍算法细节之前,我们需要先在数学上来构建一下问题模型。在公式(1)中,x (n) 、s (n) 、和 d (n)分别代表带噪旗号、干净语音旗号和噪声旗号。

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备                  

带噪旗号x (n)代表麦克风在实际场景中所收集的旗号,其中n代表时域采样点。我们对公式(1)做一个 STFT(短时傅里叶变化)得到(2),                  

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

其中网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备分别代表x (n) 、s (n)和 d (n)的频域旗号,i代表第网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备时域帧,k代表频点。由此我们可以得出公式(3),                                                 

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备代表估计出的语音旗号,网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备表示估计出的 Gain 大小。至此,我们的降噪问题就是需要去估计出一个准确的网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备特征表示为了要实现低估计量的目的,我们需要最大限度的去压缩模型大小,这样必然导致在同等状况下,压缩后模型的表现会更差。为了弥补模型变小后带来的结果下降,该研讨从输入特征(Input Feature)入手,选择更能代表语音特性的特征,从而去区分语音和噪声。当然特征大小(Feature Size)也需要严格控制,共同保证低估计量的要求。现在开源的单通道深度进修降噪算法中,比较普遍的 Feature 是用旗号的 Magnitude 和 Phase,或者直接用频域旗号的 Complex Value。这样的做法好处是可以保证模型能获得所有的频域信息,没有任何信息丢失;但是缺点是这些频域信息对于语音旗号和噪声旗号的分离度不够,而且输入的参数量偏大。方法 [1] 中用到了 Pitch Correlation(基音相关性),                

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备表示求旗号的相关性,网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备表示 Pitch Correlation。Pitch Correlation 能够突出语音旗号的特性,能在噪声中将语音旗号分离出来。Pitch Correlation 在平稳噪声上有着很好的表现,但是一旦出现非平稳噪声,由于 Pitch Correlation 只包含帧内信息,这时候就无法区分分平稳噪声和语音了。还有一种情况,当 SNR(信噪比)比较小时,时域的自相关性受噪声影响大,容易导致其判断不准,从而产生误差。针对以上问题,我们提出了谐波帧间互相关性(Harmonic-Correlation),                 

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

其中网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备之前网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备帧的 Magnitude。对于网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备该研讨分两步来讨论它的优势。首先,对频域 Magnitude(网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备)做自相关(Auto-Correlation)可以突出谐波特性(类似于 Spectral Sharpening 或者 Reverse Whitening),对于语音旗号中的谐波特性,可以更容易的凸显出来。其次,把自相关换成和前网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备帧的 Magnitude 做互相关(Cross-Correlation)可以增加帧间的信息,语音旗号的谐波相比一些突发噪声具有更长的连续性,以此可以将一些突发噪声从语音旗号中区分开。另外一个和网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备相似的特征是 Coherence,公式如下,                         

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

                               

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

可以看出,Coherence 也可以突出旗号中的谐波信息,不同之处在于它也是鉴于时域的相关性,而且增加了归一化处理。损失函数Valin 在 [1] 中提出了一种损失函数,                       

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

其中网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备代表 Gain 值的 Ground Truth,网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备代表估计出的 Gain 值。网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备通过平方的 Error 值,在训练过程中不断调整模型收敛方向,并且通过四次方的 Error 值去加强微调能力,让收敛后的模型最终的损失能够进一步减小。

在研讨过程中研讨发现,虽然网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备有着较好的调节能力,但是存在两个问题。第一个问题是网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备容易陷入局部最小值,由于平方过后 Error 值偏小,导致很难逃出这个区间。第二个问题是四次方的部分有时在实际旗号中不好控制,在最终收敛时会因为C值过大而产生误差。因此,该研讨在网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备的基础上提出了网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备,                               

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备中,我们可以根据需要去调节网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备的大小,从而减小陷入局部最小值的概率,并且最大程度的减小收敛后的最终误差。经过估计,网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备的值从 0 增加的 5 的时候,最终 Loss 值达到最小,但是由于网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备的增加会导致估计量的增加,最终收益最大的网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备值为 3。进修模型以及实时处理  该研讨沿用了 [1] 中 RNN-GRU 模型,原因是 RNN 相比其他进修模型(例如 CNN)携带时间信息,可以进修到数据中前后在时序上的联系。该研讨认为这种联系在语音旗号上非常重要,特别是在一个实时的、帧长相对较短的语音算法中。模型的结构如 Fig.1 所示。训练后的模型会被嵌入网易云信的 SDK 中,通过读取硬件设备的音频流,对 Buffer 进行分帧处理并送入 AI 降噪预处理模块中,预处理模块会将对应的 Feature 估计出来,并输出到训练好的模型中,通过模型估计出对应的 Gain 值,对旗号进行调整,最终达到降噪结果(Fig.2)。

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

Figure 1: GRU模型。

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

Figure 2: 训练和实时处理框图。

 测量结果和讨论在测试阶段,该研讨首先建立了和 Training/Validation 完全不同的一个测试集。在对比项上,选择了 [4] 作为传统旗号处理的降噪算法代表。在鉴于深度进修的算法中,研讨者首先选择了 RNNoise[1],以此来评估优化所带来的结果提升。其次,该研讨选择了 DNS-Net[2]和 DTLN[3]当下两个热度很高的实时 AI 降噪算法来作为对比项。

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

(a)Noisy signal (5dB SNR)

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

Fig.3 展示了一段 Keyboard Noise 下的降噪前后对比。Keyboard Noise 作为 Transient Noise 中的一种,是在 RTC 场景中非常容易遇到的噪声。比如在一个在线会议中,会议中的任意一位参会者在用键盘记录会议信息时,都会让这个会议陷入键盘噪声中。Fig.3 展示的是在 5dB SNR 场景下的情况。从图中可以看出,网易云信 AI 降噪在非语音部分,对键盘噪声的压制极大,基本全部消掉;在和语音重合部分,虽然没有完全消掉,但是也有明显抑制,并且保护了语音质量。在 RTC 场景中,当降噪后 SNR 达到 20dB 以上,3-4dB 的差值对于听感来说差异较小。所以该研讨在调试中把降噪量稳定在一个范围内,然后尽量去追求更高的语音理解度(STOI[5])和语音质量(MOS[6])。Table 1 展示了云信 AI 降噪和对比项之间的量化对比。从结果中可以看出,网易云信自研的 Feature 和 Loss Function 在整体上呈现对语音保护更好,降噪量略小。其中,网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备对语音质量保护最好,在降噪量上也在可接受的范围内。Table 2 展示了网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备在不同噪声类型上的表现。在 Keyboard 噪声中,虽然在低 SNR 的情况下降噪量提升不明显(RTC 场景中,持续低信噪比的 Transient Noise 场景出现频率较低),但是在 10dB SNR 以上的场景中,降噪量和其他噪声接近,并且保持着很好的语音质量。该研讨也定性的测试其他的 Transient Noise,降噪量和语音质量都保持在很稳定的水平。

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

网易云信的 AI 降噪在 10ms 的音频帧数据(16kHz 采样率)中只需要约 400,000 次浮点估计,经过云信自研的 AI 推理框架 NENN 加速,在 iPhone12 上每 10ms 的运算平均时间低于 0.01ms,峰值时间低于 0.02ms,CPU 占比小于 0.02%。 总结综上所述,网易云信 AI 降噪实现了一个轻量级的实时神经网络音频降噪算法。它在 Stationary 和 Non-Stationary Noise 上都有很好的结果,对于业界的难点 Transient Noise 也有很好的抑制结果;与此同时,相较同类 AI 降噪算法,云信 AI 降噪对语音质量有着更好的保护。自成立以来,网易云信音频实验室除了保障产品的算法研发和优化需求之外,已提交专利数十项。接下来,网易云信音频实验室将在基础算法、模型方面加强研讨,结合具体行业和应用场景,以技术创新引领产品创新。参考文献1.J.M. Valin, "A hybrid DSP/deep learning approach to real-time full-band speech enhancement," 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP). IEEE, 2018.2.Y. Xia, et al, "Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement," ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.3.Westhausen, Nils L., and Bernd T. Meyer. "Dual-signal transformation lstm network for real-time noise suppression." arXiv preprint arXiv:2005.07551 (2020).4.Y. Rao, Y. Hao, I.M. Panahi, "Smartphone-based real-time speech enhancement for improving hearing aids speech perception," 2016 38th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). IEEE, 2016.5.C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “A short-time objective intelligibility measure for time-frequency weighted noisy speech,” in IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 4214– 4217, 2010.6.Nilsson, Michael, Sigfrid D. Soli, and Jean A. Sullivan. "Development of the Hearing in Noise Test for the measurement of speech reception thresholds in quiet and in noise." The Journal of the Acoustical Society of America 95.2 (1994): 1085-1099.

哈工大车万翔教授带你进修NLP新范式:鉴于预训练的方法

8月19日19:00-20:30,车万翔老师带来直播分享,主题为自然语言处理新范式:鉴于预训练的方法。本次分享介绍预训练模型的演化过程、预训练模型的最新研讨进展和自然语言处理领域今后的发展趋势。直播赠书:在本次直播过程中,我们将从所有在直播间评论区提问的小伙伴中随机抽出10位送出车万翔老师等所著的《自然语言处理:鉴于预训练模型的方法》。

点击阅读原文,直达直播间。

网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/wang-yi-yun-xin-shen-jing-wang-luo-yin-pin-jiang-zao-suan/

(0)
上一篇 2021年 8月 19日 下午2:09
下一篇 2021年 8月 20日 下午12:18

相关推荐

  • 后续!明尼苏达大学研讨者为bug事件致歉,Linux内核社区不予接受

    明尼苏达大学研讨者发表了致 Linux 内核社区的公开报歉信,但遗憾的是,Linux 内核维护者不接受他们的报歉。

    2021年 4月 27日
  • 清华大学发布首个主动图呆板进修工具包AutoGL,开源易用可扩张,支撑自定义模型

    如何运用主动呆板进修 (AutoML) 加速图呆板进修工作的处理?清华大学发布全球首个开源主动图进修工具包:AutoGL (Auto Graph Learning),支撑在图数据上全主动进行呆板进修。

    2020年 12月 21日
  • 离群?非常十分?新类?开集?散布外检测?一文搞懂其间异同!

    你是否也曾迷惑于「离群检测,非常十分检测,新类检测,开集鉴别,散布外检测」之间错综复杂的关系?你是否也想要解决开放世界的问题却不知道从哪个任意入手?不知道利用什么方法解决问题?这篇最新综述将让你对开放世界畛域有全新的认识!

    2021年 10月 24日
  • 科研产业即将迎来AI赋能拐点

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

    2022年 7月 22日
  • 深度进修模型知识产权损坏怎么做?看看IJCAI 2021这场Workshop说了什么

    在刚刚结束的 IJCAI 2021 大会上,「深度进修模型知识产权损坏国际研讨会(DeepIPR-IJCAI’21)」正式举行,这场研讨会由微众银行、马来亚大学、香港科技大学、上海交通大学共同主办。

    2021年 8月 31日
  • 海内外71支劲旅角逐青光眼AI,视杯盘宰割义务体素科技团队斩获第一

    MICCAI(Medical Image Computing and Computer Assisted Intervention)始于1998年的麻省理工学院,意在探索医学影像、计算机辅助介入以及两者融合的价值。20逾年的发展,MICCAI已成为医学影像分析行业的顶级学术会议。百度组织的眼科医学影像分析研讨会OMIA (Ophthalmic Medical Image Analysis)是眼科影像领域的重点研讨会之一,至今已举办八届。2021MICCAI之上,OMIA将议点聚焦于青光眼之上,举办了GAMMA挑战赛

    2021年 10月 1日
  • 除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

    GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项尝试,效果还行,及格水平。

    2021年 3月 2日
  • 芯耀辉完成4亿融资,红杉华夏领投助力解决芯片IP痛点

    芯片IP领先企业芯耀辉科技(以下简称”芯耀辉”)近日完成天使轮及Pre-A轮超4亿元融资。Pre-A轮由红杉华夏、高瓴创投、云晖资源和高榕资源联合投资,松禾资源、五源资源(原晨兴资源)、国策投资和大横琴集团等机构参投。老股东真格基金和大数长青同时追加投资。融资将用于吸引海内外尖端技巧人才,提升产物交付能力,功能深化和芯片生态连接能力升级。同时,芯耀辉将进一步投入服务体系。成立于2020年6月,芯耀辉集结了全球尖端的IP行业人才。中心团队均拥有数十年研发、产物及管理背景,以自主研发的进步前辈工艺芯片IP为中心,致力于服务

    2021年 2月 24日
  • ICML2022奖项公布:15篇杰出论文,复旦、厦大、上交大研讨入选

    ICML2022 共评选出 15 篇杰出论文和一篇时间检验奖论文。

    2022年 7月 21日
  • Byte Lab | 小鹏G9评测:一半超出预期,一半不如人意

    全新800V高压SiC平台、XPower 3.0能源系统、首个3D人机交互系统、新一代智能驾驭系统XNGP……作为全新旗舰车型,G9几近汇集了小鹏的全部最新技术,再加上上市之后的配置调整,让这款车持续占据焦点。虽然本次试驾的小鹏G9还只是PT版本,部分功效还未达到最终的交付状态,多个智能功效也未打开。但既然可供媒体评测,说明这已是比较成熟的版本。此次Auto Byte就对PT车进行了基本感触,并对其优缺点均进行了梳理。「最大彩蛋」:能源表现在小鹏G9上,能源和悬架是造成如此大价格跨度的最

    2022年 11月 8日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注