产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕,凭借在语音技术领域的扎实积累和前沿创新,京东科技集团的3篇论文已经被 ICASSP 2021接收。

ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕,凭借在语音技术领域的扎实积累和前沿创新,京东科技集团的3篇论文已经被 ICASSP 2021接收。

ICASSP全称International Conference on Acoustics, Speech and Signal Processing(国际声学、语音与信号处理会议),是由IEEE主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级学术会议。京东科技集团此次的当选论文,在国际舞台全方位展示了自身在语音巩固、语音分解、多轮对话方面的实力。

01.Neural Kalman Filtering for Speech Enhancement

鉴于神经卡尔曼滤波的语音巩固算法钻研

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

*论文链接:https://arxiv.org/abs/2007.13962

由于复杂环境噪声的存在,语音巩固在人机语音交互零碎中扮演重要的角色。鉴于统计机器进修的语音巩固算法通常选用机器进修领域现有的常用模块(如全连接网络、递归神经网络、卷积神经网络等)构建巩固零碎。然而,如何将传统语音信号处理中鉴于专家知识的最优化滤波器设计理论,有效地应用到鉴于机器进修的语音巩固零碎中仍是一个仍未解决的问题。

京东科技集团当选论文《Neural Kalman Filtering for Speech Enhancement鉴于神经卡尔曼滤波的语音巩固算法钻研》提出了神经卡尔曼滤波的语音巩固框架,将神经网络和最优滤波器理论有机结合,并选用监视进修方法训练得到卡尔曼滤波的最优权重。

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

钻研人员首先构建了鉴于递归神经网络的语音时序变化模型。和传统的卡尔曼滤波器相比,该模型摒除了语音变化服从线性预测模型的非合理假设,可以针对实际语音的非线性变化进行建模。一方面,鉴于该时序模型和卡尔曼隐状态向量信息,算法首先得到语音长时包络预测。另一方面,通过融合当前时刻的观测信息,零碎进一步求解鉴于传统信号处理的维纳滤波的语音频谱预测。零碎最终输出是语音长时包络预测和维纳滤波预测的线性组合。鉴于传统卡尔曼滤波器理论,本零碎直接得到线性组合权重的最优解,通过设计端到端零碎,可以同步更新语音时变网络、和维纳滤波器相关的噪声估计网络的权重。本钻研鉴于Librispeech语音集PNL-100Nonspeech-SoundsMUSAN噪声集的实验结果表明,所提算法在信噪比增益、语音感知质量(PESQ)和语音可懂度(STOI)指标上均取得了比传统鉴于UNET和CRNN框架的语音巩固算法更好的性能。

02.Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis

鉴于跨句信息的端到端语音分解韵律建模

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

*论文链接:

https://www.zhuanzhi.ai/paper/92135c7f518e7cda63f7fcb4b940a4c1

尽管目前鉴于端到真个语音分解技术已经实现了比较自然,韵律相对丰富的语音分解效果,但是并没有选用篇章结构信息而是只选用了当前句的语言学特性进行语音分解。通常,韵律信息是和上下文的篇章结构强烈相关的,同样的一句文本在不同的上下文语境下会有完全不同的韵律表现,因此只用当前句子文本特性进行语音分解的端到端零碎在分解一段文本的时候,很难根据上下文信息将一段文本转换为自然的、韵律表现丰富的语音。

京东科技集团当选论文《Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis鉴于跨句信息的端到端语音分解韵律建模》选用了目前主流的BERT模型来提取待分解文本的跨句特性向量,然后利用该上下文向量改善鉴于端到真个语音分解模型的韵律效果。

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021▲图2:模型结构示用意▲

钻研人员没有选用任何显示的韵律控制信息,而是通过BERT语言模型提取了待分解句子的上下文句子的跨句特性表征,并且将该特性表示作为了目前主流的端到真个语音分解算法的额外输入。论文探讨了两种不同跨句特性的使用方式,第一种是将所有的上下文句子的跨句特性拼接起来用来作为端到真个语音分解零碎的一个整体的输入,第二种方式是将所有的上下文句子的跨句特性作为一个序列,然后用待分解文本的每个语音单元和这个序列进行注意力计算,然后可以通过计算得到的注意力进行对上下文句子的跨句特性进行加权求和计算得到每个语音单元对应的跨句特性。第二种跨句特性使用方式,可以让每个发音单元得到一个细粒度的、对当前单元发音有帮助的跨句特性。

实验结果表明,本钻研在端到真个语音分解零碎中结合跨句特性之后,可以有效的改善分解段落文本自然度和表现力。本钻研分别在中文和英文有声读物的数据集上验证了这一实验结果。并且,在对比测试结果中,相比我们的鉴于端到真个基线模型,绝大部分测试者更加喜欢本钻研中结合了跨句向量表征的语音分解算法分解出的音频。

03.Conversational Query Rewriting with Self-supervised Learning 

鉴于自监视进修的对话Query改写

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

*论文链接:

https://github.com/note-lh/paper/blob/main/Conversational_Query_Rewriting_with_Self-supervised_Learning.pdf

在多轮对话零碎中,用户倾向于简短、口语化的表达,表述中存在着大量信息缺失和指代的现象。这些现象导致了对话机器人难以理解用户的真实用意,大大增加了零碎应答的难度。为提高对话零碎的水平,Query改写根据用户的历史会话,补全用户的话语,以恢复所有省略和指代的信息。然而,目前存在的Query改写技术均选用监视的进修方法,模型的效果严重受限于标注数据的规模,对技术在真实业务场景的落地产生了较大的阻碍。另外,用户问题在发生改写后,用意是否发生变化并没有受到已有工作的关注,如何保证用户问题在改写后的用意一致性仍是一个亟待解决的问题。京东科技集团当选论文《Conversational Query Rewriting with Self-supervised Learning 鉴于自监视进修的对话Query改写》提出了自监视的Query改写方法。当用户问题与历史会话出现共现词语时,会以特定地概率删除共现词或者选用代词进行替换,最后Query改写模型根据历史会话还原出用户的原始问题。相较于监视进修方法,自监视的进修方式可低成本的获取大量训练数据,充分发挥模型的表征进修能力。

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

京东钻研人员还进一步提出改进模型Teresa, 从两个方面提高改写模型的质量和准确性。一是在Transformer编码层引入关键词检测模块,提取关键词指导句子生成。首先对历史会话(context)的编码输出构建自注意力图,得到历史会话中词语之间的关联度;然后利用Text Rank算法计算词语的重要性得分;最后词语的重要性得分作为先验信息融入解码器,指导模型生成含有更多关键信息的问句。二是提出用意一致性模块,在Transformer编码器的输入文本中增加一个特殊标签[CLS], 获取文本内容的用意分布,通过约束用意分布保持用意一致性。原始会话(Context, Query)与生成的句子(Target)共享Transformer编码器,分别得到改写前后的用意分布,我们将两者的分布保持一致,进而保证生成句子的用意一致性。

京东科技集团作为京东对外提供技术服务的核心板块,一直致力于前沿钻研探索,并持续以科技引领,助力城市和产业实现数智化升级。截至目前,京东科技集团在AAAI、IJCAI、CVPR、KDD、NeurIPS、ICML、ACL、ICASSP等国际AI顶级会议上共发表相关论文近350+篇,并在多项国际性学术赛事中斩获19项世界第一。相信未来,京东科技集团将持续在语音语义、计算机视觉、机器进修等领域发力,以科技助力实体经济,切实改变每个人的生活。

推荐阅读

对话京东科技算法科学家吴友政:回望2020,NLP技术发展速度强劲

京东智联云4篇论文当选国际语音顶级大会Interspeech 202

NLP带来的“科幻感”超乎你的想象 – ACL2020论文解读(一)

给TA打赏
共{{data.count}}人
人已打赏
AI

MaxCompute施行引擎核心技术DAG揭秘

2021-8-25 14:46:00

AI

简单使用PyTorch搭建GAN模型

2021-8-25 14:48:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索