产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕,凭借在语音技术领域的扎实积累和前沿创新,京东科技集团的3篇论文已经被 ICASSP 2021接收。

ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕,凭借在语音技术领域的扎实积累和前沿创新,京东科技集团的3篇论文已经被 ICASSP 2021接收。

ICASSP全称International Conference on Acoustics, Speech and Signal Processing(国际声学、语音与信号处理会议),是由IEEE主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级学术会议。京东科技集团此次的当选论文,在国际舞台全方位展示了自身在语音巩固、语音分解、多轮对话方面的实力。

01.Neural Kalman Filtering for Speech Enhancement

鉴于神经卡尔曼滤波的语音巩固算法钻研

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

*论文链接:https://arxiv.org/abs/2007.13962

由于复杂环境噪声的存在,语音巩固在人机语音交互零碎中扮演重要的角色。鉴于统计机器进修的语音巩固算法通常选拔机器进修领域现有的常用模块(如全连接网络、递归神经网络、卷积神经网络等)构建巩固零碎。然而,如何将传统语音信号处理中鉴于专家知识的最优化滤波器设计理论,有效地应用到鉴于机器进修的语音巩固零碎中仍是一个仍未解决的问题。

京东科技集团当选论文《Neural Kalman Filtering for Speech Enhancement鉴于神经卡尔曼滤波的语音巩固算法钻研》提出了神经卡尔曼滤波的语音巩固框架,将神经网络和最优滤波器理论有机结合,并选拔监视进修方法训练得到卡尔曼滤波的最优权重。

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

钻研人员首先构建了鉴于递归神经网络的语音时序变化模型。和传统的卡尔曼滤波器相比,该模型摒除了语音变化服从线性预测模型的非合理假设,可以针对实际语音的非线性变化进行建模。一方面,鉴于该时序模型和卡尔曼隐状态向量信息,算法首先得到语音长时包络预测。另一方面,通过融合当前时刻的观测信息,零碎进一步求解鉴于传统信号处理的维纳滤波的语音频谱预测。零碎最终输出是语音长时包络预测和维纳滤波预测的线性组合。鉴于传统卡尔曼滤波器理论,本零碎直接得到线性组合权重的最优解,通过设计端到端零碎,可以同步更新语音时变网络、和维纳滤波器相关的噪声估计网络的权重。本钻研鉴于Librispeech语音集PNL-100Nonspeech-SoundsMUSAN噪声集的实验结果表明,所提算法在信噪比增益、语音感知质量(PESQ)和语音可懂度(STOI)指标上均取得了比传统鉴于UNET和CRNN框架的语音巩固算法更好的性能。

02.Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis

鉴于跨句信息的端到端语音分解韵律建模

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

*论文链接:

https://www.zhuanzhi.ai/paper/92135c7f518e7cda63f7fcb4b940a4c1

尽管目前鉴于端到真个语音分解技术已经实现了比较自然,韵律相对丰富的语音分解效果,但是并没有选拔篇章结构信息而是只选拔了当前句的语言学特点进行语音分解。通常,韵律信息是和上下文的篇章结构强烈相关的,同样的一句文本在不同的上下文语境下会有完全不同的韵律表现,因此只用当前句子文本特点进行语音分解的端到端零碎在分解一段文本的时候,很难根据上下文信息将一段文本转换为自然的、韵律表现丰富的语音。

京东科技集团当选论文《Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis鉴于跨句信息的端到端语音分解韵律建模》选拔了目前主流的BERT模型来提取待分解文本的跨句特点向量,然后利用该上下文向量改善鉴于端到真个语音分解模型的韵律效果。

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021▲图2:模型结构示计划▲

钻研人员没有选拔任何显示的韵律控制信息,而是通过BERT语言模型提取了待分解句子的上下文句子的跨句特点表征,并且将该特点表示作为了目前主流的端到真个语音分解算法的额外输入。论文探讨了两种不同跨句特点的使用方式,第一种是将所有的上下文句子的跨句特点拼接起来用来作为端到真个语音分解零碎的一个整体的输入,第二种方式是将所有的上下文句子的跨句特点作为一个序列,然后用待分解文本的每个语音单元和这个序列进行注意力计算,然后可以通过计算得到的注意力进行对上下文句子的跨句特点进行加权求和计算得到每个语音单元对应的跨句特点。第二种跨句特点使用方式,可以让每个发音单元得到一个细粒度的、对当前单元发音有帮助的跨句特点。

实验结果表明,本钻研在端到真个语音分解零碎中结合跨句特点之后,可以有效的改善分解段落文本自然度和表现力。本钻研分别在中文和英文有声读物的数据集上验证了这一实验结果。并且,在对比测试结果中,相比我们的鉴于端到真个基线模型,绝大部分测试者更加喜欢本钻研中结合了跨句向量表征的语音分解算法分解出的音频。

03.Conversational Query Rewriting with Self-supervised Learning 

鉴于自监视进修的对话Query改写

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

*论文链接:

https://github.com/note-lh/paper/blob/main/Conversational_Query_Rewriting_with_Self-supervised_Learning.pdf

在多轮对话零碎中,用户倾向于简短、口语化的表达,表述中存在着大量信息缺失和指代的现象。这些现象导致了对话机器人难以理解用户的真实计划,大大增加了零碎应答的难度。为提高对话零碎的水平,Query改写根据用户的历史会话,补全用户的话语,以恢复所有省略和指代的信息。然而,目前存在的Query改写技术均选拔监视的进修方法,模型的效果严重受限于标注数据的规模,对技术在真实业务场景的落地产生了较大的阻碍。另外,用户问题在发生改写后,计划是否发生变化并没有受到已有工作的关注,如何保证用户问题在改写后的计划一致性仍是一个亟待解决的问题。京东科技集团当选论文《Conversational Query Rewriting with Self-supervised Learning 鉴于自监视进修的对话Query改写》提出了自监视的Query改写方法。当用户问题与历史会话出现共现词语时,会以特定地概率删除共现词或者选拔代词进行替换,最后Query改写模型根据历史会话还原出用户的原始问题。相较于监视进修方法,自监视的进修方式可低成本的获取大量训练数据,充分发挥模型的表征进修能力。

产业实践推动科技创新,京东科技集团3篇论文当选ICASSP 2021

京东钻研人员还进一步提出改进模型Teresa, 从两个方面提高改写模型的质量和准确性。一是在Transformer编码层引入关键词检测模块,提取关键词指导句子生成。首先对历史会话(context)的编码输出构建自注意力图,得到历史会话中词语之间的关联度;然后利用Text Rank算法计算词语的重要性得分;最后词语的重要性得分作为先验信息融入解码器,指导模型生成含有更多关键信息的问句。二是提出计划一致性模块,在Transformer编码器的输入文本中增加一个特殊标签[CLS], 获取文本内容的计划分布,通过约束计划分布保持计划一致性。原始会话(Context, Query)与生成的句子(Target)共享Transformer编码器,分别得到改写前后的计划分布,我们将两者的分布保持一致,进而保证生成句子的计划一致性。

京东科技集团作为京东对外提供技术服务的核心板块,一直致力于前沿钻研探索,并持续以科技引领,助力城市和产业实现数智化升级。截至目前,京东科技集团在AAAI、IJCAI、CVPR、KDD、NeurIPS、ICML、ACL、ICASSP等国际AI顶级会议上共发表相关论文近350+篇,并在多项国际性学术赛事中斩获19项世界第一。相信未来,京东科技集团将持续在语音语义、计算机视觉、机器进修等领域发力,以科技助力实体经济,切实改变每个人的生活。

推荐阅读

对话京东科技算法科学家吴友政:回望2020,NLP技术发展速度强劲

京东智联云4篇论文当选国际语音顶级大会Interspeech 202

NLP带来的“科幻感”超乎你的想象 – ACL2020论文解读(一)

原创文章,作者:京东科技开发者,如若转载,请注明出处:https://www.iaiol.com/news/chan-ye-shi-jian-tui-dong-ke-ji-chuang-xin-jing-dong-ke-ji/

(0)
上一篇 2021年 8月 25日 下午2:46
下一篇 2021年 8月 25日 下午2:48

相关推荐

  • 一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

    来自商汤、西安交通大学等机构的研究者提出了一种通用感知架构 Uni-Perceiver ,该方法可以更好地将预训练中学到的知识迁移到下流工作中。

    2021年 12月 12日
  • 「Pop SOTA!List for AI Developers 2021」社区评估 TOP 128 代价处事完整名录发布!

    2022 年初,我们对 2021 年度发布于 arXiv 的「SOTA」AI 论文进行了一轮分析,试图找到 2021 年度,对 AI 开发者最具代价的「Pop SOTA!」处事。但面对超过 2 万篇的「SOTA」处事,我们产生了疑惑 —— 自称「SOTA」的处事就一定是先进的吗?对广大 AI 开发者来说,什么样才是先进的技术处事?是思路具有启发性?还是跑出的实验分数高?是易于实现,对数据资源、计算资源的需求可控?还是放出的代码实现即插即用,可用性强?

    2022年 1月 27日
  • 无代码生产力对象赋能数字化供应链新发展

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动将来的AI技术」与「重塑财产的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、财产专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI财产的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与财产科技融合趋势。

    2022年 8月 1日
  • ARM最新回应:新架构Armv9不受美国出口管理条例约束,华为可获受权

    对于Armv9架构,ARM首席执行官西蒙·塞加斯表示,「v9架构将提升宁静性和信任度,并为将来十年的计较机技巧奠定基础。」与此同时,v9架构不受美国出口管理条例约束也为华为带来了利好消息。

    2021年 3月 31日
  • 计算机视觉领军学者沈春华归国,已参加浙江大学

    越来越多海外任教的学者正在「回归」国内。

    2021年 12月 19日
  • 百分点科技:媒介数据中台设置装备摆设方法论和落地实践

    编者按媒介融合下半场的重心将向智能化趋势发展。如何打造实用有效的媒介数据产品和办事,继而完成数智化转型,已成为媒介行业当前最为关注的问题。本文围绕当前媒介机构的转型需求,百分点科技大数据技术团队零碎地介绍了百分点科技媒介数据中台设置装备摆设方法论及实践成果。一、媒介数据中台设置装备摆设背景以报纸、出版、广播电视等为代表的传统媒介,和以网站、新闻客户端、微博、微信公众号、IPTV、OTT等为代表的新媒介产品,无论是呈现方式、传播途径,还是设置装备摆设目标、技术体系都大不相同,这就导致了零碎设置装备摆设重复浪费、各使用零碎和颁布渠道各自为政,出现营业

    2021年 3月 10日
  • AI保障反讹诈-病历结构化服务已落地应用

    保障科技的快速发展正在为保障业加速转型升级带来全新契机, 科技创新正深刻改变着保障的业务流程。病历结构化服务,助力其核保业务科技化高效化。项目背景1.政策背景近年来,随着保障覆盖面逐步扩大,保障讹诈案件数量也随之逐年增加,并且不断“花样”翻新。面对这一事关行业健康持续发展根基的难题,保障业正在积极寻求答案。根据国际保障监管者协会测算,全球每年约有20%-30%的保障赔款涉嫌讹诈,损失金额约800亿美元,险企迫切需要更加智慧化的核保风控系统解决这一问题。由于保费占比高、金额大,车险和健康险这两

    2021年 10月 18日
  • 可对药物份子举行表征的若干深度进修

    编辑 | 萝卜皮若干深度进修(GDL)基于包罗和处理对称信息的神经网络架构。GDL 为依赖于具有不同对称性和抽象级别的份子体现的份子建模利用程序带来了希望。苏黎世联邦理工学院的研讨人员对份子 GDL 举行了结构化和统一概述,重点介绍了其在药物发现、化学合成猜测和量子化学中的利用。它包罗对 GDL 原理的介绍,以及相关的份子体现,例如份子图、网格、曲面和字符串,以及它们各自的属性。讨论了份子科学中 GDL 当前面临的挑战,并尝试猜测未来的机会。该综述以「Geometric deep learning on molec

    2021年 12月 27日
  • 千寻地位亮相2022世界人工智能大会:首秀更精细化的数字孪生才智

     9月1日,2022世界人工智能大会在上海正式开幕。全球领先的时空智能基础设施公司——千寻地位网络有限公司(以下简称“千寻地位”)首次展示了具备精确时空才智的数字孪生产品在都会数字化、新基建建设等领域的利用,包括都会道路智能巡检和保护、高速公路高精度舆图收罗、智能矿山三维可视化办理等。今年的世界人工智能大会以“智联世界,元生无界”为主题,数字孪生、时空智能、元宇宙等硬核科技热门赛道备受关注。更精细化的数字孪生才智数字孪生是物理世界与数

    2022年 9月 1日
  • 技能破局?畅谈元宇宙大浪下的AI技能流实践机遇与挑拨

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动将来的AI技能」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技能和学术热点,盘点AI产业的年度研究目标以及重大科技突破,展望2022年度AI技能开展目标、AI技能与产业科技融合趋势。

    2022年 7月 26日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注