明略科技Blockformer语音辨别模型在AISHELL-1测试集上取得SOTA结果

深度学习已成功应用于语音辨别,各种神经网络被大家广泛研究和探索,例如,深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Netwo

深度学习已成功应用于语音辨别,各种神经网络被大家广泛研究和探索,例如,深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和端到端的神经网络模型。

目前,主要有三种端到端的模型框架:神经网络传感器(Neural Transducer,NT),鉴于注意力的编码器-解码器(Attention-based Encoder Decoder,AED)和连接时序分类(Connectionist Temporal Classification,CTC)。

NT是CTC的增强版本,引入了预测网络模块,可类比传统语音辨别框架中的说话模型,解码器需要把先前预测的历史作为上下文输入。NT训练不稳定,需要更多内存,这可能会限制训练速度。

AED由编码器,解码器和注意力机制模块组成,前者对声学特征进行编码,解码器生成句子,注意力机制用来对齐编码器输入特征和解码状态。业内不少ASR系统架构鉴于AED。然而,AED模型逐个单位输入,其中每个单位既取决于先前生成的结果,又依赖后续的上下文,这会导致辨别延迟。

另外,在实际的语音辨别任务中,AED的注意力机制的对齐成果,有时也会被噪声破坏。

CTC的解码速度比AED快,但是由于输入单位之间的条件独立性和缺乏说话模型的约束,其辨别率有提升空间。

目前有一些关于融会AED和CTC两种框架的研究,鉴于编码器共享的多任务学习,应用CTC和AED目标同时训练。在模型结构上,Transformer已经在机器翻译,语音辨别,和计算机视觉领域显示了极大的优势。

明略科技的语音技术负责人朱会峰介绍,明略团队重点研究了在CTC和AED融会训练框架下,如何应用Transformer模型来提高辨别成果。

明略科技Blockformer语音辨别模型在AISHELL-1测试集上取得SOTA结果

明略团队通过可视化分析了不同BLOCK和HEAD之间的注意力信息,这些信息的多样性是非常有帮助的,编码器和解码器中每个BLOCK的输入信息并不完全包含,也可能是互补的。(https://doi.org/10.48550/arXiv.2207.11697)

鉴于这种洞察,明略团队提出了一种模型结构,Block-augmentedTransformer(BlockFormer),研究了如何以参数化的方式互补融会每个块的基本信息,实现了Weighted Sum of the Blocks Output(Base-WSBO)和Squeeze-and-Excitation moduletoWSBO(SE-WSBO)两种block集成方法。

明略科技Blockformer语音辨别模型在AISHELL-1测试集上取得SOTA结果

BlockfomerwithBase-WSBO

明略科技Blockformer语音辨别模型在AISHELL-1测试集上取得SOTA结果

SE-WSBO

实验证明,Blockformer模型在中文普通话测试集(AISHELL-1)上,不应用说话模型的情况下实现了4.35%的CER,应用说话模型时达到了4.10%的CER。

明略科技Blockformer语音辨别模型在AISHELL-1测试集上取得SOTA结果

明略科技Blockformer语音辨别模型在AISHELL-1测试集上取得SOTA结果明略科技Blockformer语音辨别模型在AISHELL-1测试集上取得SOTA结果

AISHELL-1是希尔贝壳开源的中文普通话语音数据库,录音时长178小时,由400名中国不同地域说话人进行录制。Papers with Code网站显示,Blockformer在AISHELL-1上取得SOTA的辨别成果,字错率降低到4.10%(应用说话模型时)(https://paperswithcode.com/sota/speech-recognition-on-aishell-1)

明略科技集团CTO郝杰表示,明略的会话智能产品针对鉴于线上企微会话和线下门店会话的销售场景,语音辨别团队聚焦美妆、汽车、教育等行业的场景优化和定制训练,但是也不放松对通用语音辨别新框架、新模型的探索,Blockformer模型的这个SOTA成果为语音辨别的定制优化提供了一个高起点。

原创文章,作者:新闻助手,如若转载,请注明出处:https://www.iaiol.com/news/22182

(0)
上一篇 2022年9月9日 下午4:27
下一篇 2022年9月13日 下午2:14

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注