带你读论文 | 端到端语音辨别模型

编者按:过去十年,得益于人工智能与机器学习的突破、算法与硬/软件能力的进步,以及拥有既多样又大量的语音数据库,用以训练多参数的、大规模的语音辨别与合成模型,使得语音处理技术获得飞跃性进展。

随着端到端神经网络在机器翻译、语音生成等方面的进展,端到端的语音辨别也达到了和传统法子可比的性能。不同于传统法子将语音辨别任务分解为多个子任务(词汇模型,声学模型和谈话模型),端到端的语音辨别模型基于梅尔语谱作为输入,能够直接产生对应的自然谈话文本,大大简化了模型的训练过程,从而越来越受到学术界和产业界的关注。

本文将通过六篇论文,从建模法子、响应时间优化、数据巩固等不同方面讲解端到端语音模型的发展,并探讨不同端到端语音辨别模型的优缺点。

端到端语音辨别建模

在讲述语音辨别建模之前,首先明确端到端语音辨别的输入和输入。

输入:目前端到端语音辨别常用的输入特征为 fbank。fbank 特征的处理过程为对一段语音信号举行预加重、分帧、加窗、短时傅里叶变换(STFT)、mel 滤波、去均值等。一个 fbank 向量对应往往对应10ms的语音,而一段十秒的语音,即可得到大约1000个 fbank 的向量描述该语音。除了 fbank,MFCC 以及 raw waveform 在一些论文中也被当做输入特征,但主流的法子仍然采用 fbank。

输入:端到端的输入可以是字母、子词(subword)、词等等。目前以子词当做输入比较流行,和 NLP 类似,一般用 sentence piece 等工具将文本举行切分。

Seq2Seq

参照论文:Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition. ICASSP 2016(William Chan, Navdeep Jaitly, Quoc V. Le, Oriol Vinyals)

给定序列 X,输入 Y,最直白的一种办法就是延伸在机器翻译中所使用的 Seq2Seq 模型。Seq2Seq 模型由两部分组成:编码器和带有注意力机制的解码器。在解码每个词语的时候,注意力机制会动态计算每个输入隐状态的权重,并通过加权线性组合得到当前的注意力向量。在此处的语音辨别任务中,Seq2Seq 模型与机器翻译中的 Seq2Seq 模型异曲同工,可以使用不同的模型作为编码器和解码器,例如 RNN、Transformer 模型等。

带你读论文 | 端到端语音辨别模型图1:Listen, attend and spell 模型结构图

为了训练更好的 Seq2Seq 语音辨别模型,一些优化策略也被提出:

引入巩固学习策略,将最小词错率(minimum word error rate)当作模型训练的奖励函数,更新模型参数。

由于语音的输入和输入有着单调性,并不存在机器翻译的调序问题,所以使用单调注意力策略,在一些实验中可以提升语音辨别的性能。

引入覆盖(coverage)机制,缓解语音辨别的漏词问题。

与 CTC 联合训练以及联合解码,可大幅提升 Seq2Seq 模型性能。

CTC

参照论文:Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks. ICML 2006(AlexGraves, SantiagoFernández,FaustinoGomez)

除了简单易懂的 Seq2Seq 模型之外,还需要关注另一个经典之作 CTC 模型。CTC 模型是端到端语音辨别的开山始祖,提出时间远早于 Seq2Seq 模型,其建模思想也与 Seq2Seq 模型相去甚远。CTC 模型可以看作自动学习输入 X 与 Y 的对齐,由于 Y 的长度远小于 X,所以 CTC 引入空和 y_i 的重复来让 X 和 \{y}_hat 一一对应。

带你读论文 | 端到端语音辨别模型图2:CTC 输入音频与文本对应关系

例如,在图2中,CTC 引入空和重复使得句子 THE CAT (Y)和输入音频(X)做对齐。这种对齐方式有三个特征:

(1)X 与 Y 映射是单调的,即如果 X 向前移动一个时间片,Y 保持不动或者也向前移动一个时间片。

(2)X 与 Y 的对齐是多对一的。一个 X 可以有很多种方式和 Y 举行对应。

(3)X 的长度大于 Y 的长度。

为了求得该映射,需要最大化后验概率 P(Y|X)

带你读论文 | 端到端语音辨别模型

这里 A 是一条合法的 x 和 y 的对应路径,a_t 代表 t 时刻 X 所对应的输入。如有兴趣可参见 https://distill.pub/2017/ctc/ 了解更多的推导细节。

在训练中 CTC 与 Seq2Seq 模型相比,CTC 模型有如下不同:

CTC 在解码时,对于每一帧都可以生成一个对应的子词,因此 CTC 比 Seq2Seq 可以更好地支持流式语音辨别。

CTC 的建模并没有直接建模 Y 中不同词语之间的依赖关系,所以生成的文本从谈话模型的角度来看质量较差。为了解决这个问题,CTC 往往要和外部的谈话模型一起举行解码才可以生成更好的结果。

Transducer

参照论文:Sequence Transduction with Recurrent Neural Networks. arXiv 2012(Alex Graves)

由于 CTC 模型无法显示建模 Y 中词与词的依赖关系,Transducer 模型在2012年被提出。Transducer 可以被看作是 CTC 模型的延伸,由文本预测网络(text prediction network)来建模谈话模型,弥补了 CTC 的缺点。之后谈话模型的隐状态和语音编码器的隐状态传递给联合网络(joint network),以预测当前时刻的输入。

带你读论文 | 端到端语音辨别模型图3:Transducer 结构图

值得注意的是,Transducer 的状态转移矩阵和 CTC 稍有不同,在 CTC 中一个词连续出现两次会在后处理时被合并,而 Transducer 不支持这种表示,其主要原因为 Transducer 对谈话模型举行了建模,每输入一个词它的 prediction network 的隐状态就会变化一次。并且 Transducer 支持同一帧对应多个输入单元,而 CTC 不支持。因为 CTC 和 Transducer 都是逐帧解码,语音结束解码过程结束,他们也被称作是帧同步(frame synchronized) 模型。与之相反的是 Seq2Seq 模型是逐词解码,直到出现 EOS 才结束,所以被称作词同步(word synchronized)模型。

带你读论文 | 端到端语音辨别模型图4:Transducer 转移矩阵端到端语音辨别优化

有了大致的模型结构之后,科研人员们又从不同的方面对端到端模型举行了优化。

数据巩固

参照论文:SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition. INTERSPEECH 2019(Daniel S. Park, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, Quoc V. Le)

由于端到端模型需要大规模数据训练,而很多场景并没有那么多的数据,因此数据巩固算法在端到端语音辨别系统里最近被多次研究。其中最著名的数据巩固算法为 Spec Augmentation。该法子简单实用,可以被看作是一种用于频谱的巩固法子,来帮助神经网络学习有用的特征。为了使模型更加鲁棒,研究者采用了3种法子,对数据举行巩固:

Time-warp: 可通俗理解为在梅尓谱中沿着时间轴把任意一帧向左或向右扭曲随机距离。

Frequency mask:添加在频率 f 的连续梅尔谱上,将 [f0, f0+f]mask。其中 f是一个统一的0到 F 的参数,f0 是选自 [0,v-f] 中的。v 则代表了梅尔频谱图的通道数量。

Time mask:添加在 t 的连续时间上,将谱图 [t0,t0+t] 全部掩盖掉。t 是一个0到 T 的均匀分布。

这其中 Time mask 和 Frequency mask 对模型鲁棒性的贡献最大。

延缓优化

参照论文:Towards Fast and Accurate Streaming End-to-End ASR. ICCASP 2019(Bo Li, Shuo-yiin Chang, Tara N. Sainath, Ruoming Pang, Yanzhang He, Trevor Strohman, Yonghui Wu)

端到端模型由于模型小,不需要额外的谈话模型,所以很容易部署到移动设备之上。而在移动设备上的语音场景往往需要一个延时非常小的语音辨别模型。例如,当用户说完“请为我查找歌曲晴天”时,系统应该尽可能快的举行响应,压缩延缓。迄今为止,有一系列工作对压缩 Transducer 的延缓展开了研究。其中比较著名的是 Google 所提出的 Endpointer 和其对应的关于延缓的惩罚。Endpointer 可以当做 Transducer 模型的句子结束符 EOS,研究员们希望这个 EOS 可以尽早出现,然而过早的出现可能导致删除错误,所以 Google 的研究员提出了 Early and Late Penalties 去建模 EOS 出现位置。

带你读论文 | 端到端语音辨别模型

在公式中,首先需要知道 EOS 所出现的真实时刻,之后如果 EOS 早出现或者晚出现(允许晚 t_buffer)都要举行相应的惩罚。然而,此种法子往往会带来对精度的损失,在语音辨别任务中,往往更好的延缓会以牺牲精度为代价。

端到端语音辨别对比

参照论文:On the Comparison of Popular End-to-End Models for Large Scale Speech Recognition. InterSpeech 2020(Jinyu Li, Yu Wu, Yashesh Gaur, Chengyi Wang, Rui Zhao, Shujie Liu)

在今年的 InterSpeech 的论文中,微软亚洲研究院和微软 Azure Speech 团队的研究员们对比了主流的 E2E 模型,其中包括 Transformer 和 RNN 的结构对比,以及在流式场景下 Transducer 和流式 S2S 的框架对比,所有试验均在超大规模数据集上举行。实验的结论为,Transformer 模型比 RNN 模型效果稍好,而 Transducer 模型在流式场景下要好于流式的 S2S 模型。在此之后,研究员们在论文“Developing Real-time Streaming Transformer Transducer for Speech Recognition on Large-scale Dataset”中又探讨了 RNN 和 Transformer 模型在 Transducer 的优劣比较,实验结果表明,Transformer 在精度上要好于 RNN,在允许几百毫秒的延缓时从精度、速度上都要好于 RNN。然而 Transformer 模型在0延缓时计算代价要远远大于 LSTM,需要良好的计算设备才能支持实时运行。

原创文章,作者:微软研究院AI头条,如若转载,请注明出处:https://www.iaiol.com/news/dai-ni-du-lun-wen-duan-dao-duan-yu-yin-bian-bie-mo-xing/

(0)
上一篇 2024年 3月 1日 上午11:54
下一篇 2020年 11月 23日 下午6:26

相关推荐

  • ICML 2021 | 鉴于拆卸的视频无监视零件宰割

    本文是第三十八届国际机器进修会议(ICML 2021)入选论文《鉴于拆卸的视频无监视零件宰割(Unsupervised Co-part Segmentation through Assembly)》的解读。
    该论文由北京大学陈宝权-刘利斌研究团队与山东大学、北京电影学院未来影像高精尖创新中心合作,提出了一种无监视的图像零件宰割法子,创新性地采用了将零件宰割历程和零件拆卸历程相结合的自监视进修思路,利用视频中的运动信息来提取潜在的零件特性,从而实行对物体零件的有意义的宰割。

    2022年 7月 18日
  • 华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

    华为诺亚方舟实验室联合北大和悉大整理了业界第一篇视觉Transformer综述。

    2022年 2月 23日
  • 《几许深度进修》作者授课,2022年GDL100课程上线

    今年的 GDL100 包含通例课程、辅导课和专题研讨课,深入讲解了几许深度进修的基本概念和重要问题。

    2022年 7月 29日
  • 一块V100运转上千个智能体、数千个情况,这个「曲率引擎」框架实行RL百倍提速

    在加强进修研究中,一个实验就要跑数天或数周,有没有更快的方法?近日,来自 SalesForce 的研究者提出了一种名为 WarpDrive(曲率引擎)的开源框架,它可以在一个 V100 GPU 上并行运转、训练数千个加强进修情况和上千个智能体。实验结果表明,与 CPU+GPU 的 RL 实行相比,WarpDrive 靠一个 GPU 实行的 RL 要快几个数量级。

    2021年 9月 12日
  • 这位斯坦福PhD重生的论文被引数:接近4万

    什么也阻止不了我去进修。

    2022年 3月 29日
  • CVPR 2021 | 工夫序列疾病展望的因果隐马尔可夫模型

    本文是对发表于计算机视觉和模式识别领域的顶级会议 CVPR 2021的论文“Causal Hidden Markov Model for Time Series Disease Forecasting(工夫序列疾病展望的因果隐马尔可夫模型)”的解读。
    该论文由北京大学王亦洲课题组与深睿医疗等单位合作,针对工夫序列疾病展望的问题,提出了因果隐马尔可夫模型描述疾病的动态发展过程,并使用基于 VAE 的变分框架举行学习。通过对图象隐空间举行解耦,去除疾病有关因子与疾病展望的伪相关关系,从而提高展望的准确率和鲁棒性。

    2022年 7月 18日
  • 性能提升、成本降低,这是分布式强化进修算法最新研究进展

    深度强化进修(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效(data inefficiency)问题,受到分布式机器进修技术的启发,分布式深度强化进修 (distributed deep reinforcement learning,DDRL) 已提出并成功应用于盘算机视觉和自然语言处理领域。有观点认为,分布式强化进修是深度强化进修走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化进修是一个综合的研究子领域,需

    2024年 2月 15日
  • ICML2022奖项公布:15篇杰出论文,复旦、厦大、上交大研讨入选

    ICML2022 共评选出 15 篇杰出论文和一篇时间检验奖论文。

    2022年 7月 21日
  • ICLR 2022 | 鉴于心智理论的多智能体通讯与分工

    本文是 ICLR 2022入选论文《ToM2C: Target-oriented Multi-agent Communication and Cooperation with Theory of Mind》的解读。该论文由北京大学王亦洲课题组完成。文章提出了一种鉴于心智理论的多智能体通讯与分工方法。每一个智能体鉴于对他人心理状态的推想独立地抉择通讯对象和个体行动,进而实现分布式的分工。试验表明该方法提高了多智能体分工的成功率,大幅降低了通讯价钱,并且具有良好的泛化性能。

    2022年 7月 18日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注