百分点认知智能实验室:智能对话技术应用和实践

编者按智能对话系统因其巨大的潜力和商业价值受到越来越多研究者和从业者的关注,对话的主要种类囊括闲谈型、常识型、任意型、阅读理解型等,目前已经广泛应用在智能客服、智能音箱、智能车载等众多场景。近年来,智能对话还出现了新的应用场景,例如可以将自然语言转换为各种程序性语言,如SQL,从数据库中找到相应的答案,让用户和数据库的交互变得更加直接和方便。为此,Datafun发布了百分点首席算法科学家苏海波署名文章,文中主要介绍了智能问答中的成绩语义等价模型、常识图谱问答模型、NL2SQL模型,以及百分点在智能问答领域的实践案例

百分点认知智能实验室:智能对话技术应用和实践

编者按

智能对话系统因其巨大的潜力和商业价值受到越来越多研究者和从业者的关注,对话的主要种类囊括闲谈型、常识型、任意型、阅读理解型等,目前已经广泛应用在智能客服、智能音箱、智能车载等众多场景。近年来,智能对话还出现了新的应用场景,例如可以将自然语言转换为各种程序性语言,如SQL,从数据库中找到相应的答案,让用户和数据库的交互变得更加直接和方便。

为此,Datafun发布了百分点首席算法科学家苏海波署名文章,文中主要介绍了智能问答中的成绩语义等价模型、常识图谱问答模型、NL2SQL模型,以及百分点在智能问答领域的实践案例。

本文作者:苏海波

一、智能问答的典型场景

1. 典型的智能问答应用场景

在典型的智能问答应用场景中囊括:

闲谈式,开放域闲谈的典型例子,囊括问天气,寒暄,情感陪伴等。

任意导向式对话,任意驱动的多轮对话的例子,囊括智能音箱,语音智能点餐服务,这是特定任意模式下的服务。

信息问答式,常识型问答,回答信息,例如问姚明的身高等,是用作获取信息的服务。

2. 典型的智能问答对比应用场景

百分点认知智能实验室:智能对话技术应用和实践

闲谈机器人,在拉近距离、建立信任关系、情感陪伴、顺滑对话过程、以及提高用户粘性等方面发挥着作用,一般以关键词触发,模糊立室回复,常识范围为不深入的开放领域,数据与常识来自于互联网、闲谈交互开发者定期更新的数据。

常识型机器人,主要应用于咨询和售后服务的场景,拥有一问一答,智能立室应答,兑现语义归一的能力,在实际使用中代替部分的人工服务,服务于垂直单一行业领域,这部分的数据主要来自于企业自主更新的业务常识库和不断优化的常识体系。

任意机器人,在售前,销售,售后均有涉及,可以从事多轮对话,兑现深层语义鉴别,意图鉴别等任意,主要服务于明确具体的任意场景,数据同样来自于企业自主更新的业务常识库和不断优化的常识体系。

另外,常识型机器人和任意型机器人均属于为垂直行业领域服务的业务型机器人。

二、智能问答的产品架构

1. 智能问答的具体流程

百分点认知智能实验室:智能对话技术应用和实践

首先从事语音鉴别,将用户会话鉴别出来后,经过ASR结果纠错和补全、指代消解、省略恢复等预处理之后,经过敏感词检测,送入中控系统。中控系统是在特定语境下从事意图鉴别的系统,分为情绪鉴别、业务意图鉴别、对话管理、异常处理等四个模块,其中业务意图囊括QA问答机器人(QA Bot)、鉴于常识图谱的问答机器人(KG Bot),NL2SQL机器人(DB Bot),任意型机器人(TASK Bot)。对话管理囊括多轮对话的对话历史管理、BOT当前询问、会话状态选取等模块。异常处理囊括安全话术(对意图结果的结果从事后处理)、会话日志记录、告警等功能。然后,进入话术/指令天生子系统,这是鉴别问句意图后的对话结果天生,囊括话术天生和指令天生两个模块,在话术天生中,对话系统根据对话历史数据和对话模板天生和拼接产生话术,如果是任意型对话,将天生对应指令。另外,辅助系统通过画像分析、用户分析、成绩分析等功能,进一步优化问答系统的效果。

2. 智能问答产品的具体架构

百分点认知智能实验室:智能对话技术应用和实践

智能问答产品主要囊括常识库、对话模型、配置中心、多渠道接入以及后台管理。针对不同的任意划分,准备不同的常识库,例如QA BOT需要引入问答常识对,KG BOT需要常识图谱的支持等等。将针对不同任意的对话模型服务,部署接入各个平台接口,譬如小程序、微信、网页等,提供在线问答服务。配置中心主要提供QA对、闲谈语料、同义词库、特征词库等的可视化配置服务,兑现常识配置的快速拓展。后台管理针对智能问答系统实施整体监控、日志管理、告警、权限管理等等,另外,它还提供各种维度的统计分析服务。

三、QA常识问答的技术兑现

1. QA常识问答的简介

这是以智能立室问答库为主要兑现原理的问答机器人,将用户所提成绩与问答库中的成绩从事相似度立室筛选,鉴别出语义等价的成绩以及对应答案,完成对话。

首先用户访问PC网站或者公众号平台,通过语音描述要咨询的成绩,输入ASR语音鉴别模块,将失去的成绩经过纠错之后,从事成绩语义等价的鉴别、相似成绩的推荐,并对问答结果从事记录。经过一段时间的累积之后,后台就会失去实际应用中对于用户咨询成绩的各种情况,这里囊括未鉴别的成绩、误鉴别的成绩、新挖掘的高频成绩,AI算法团队针对这些成绩从事优化,囊括成绩的新增、答案的优化、相似成绩发掘、算法的优化等部分,并将这些重新梳理的数据作为补充的问答常识在人工审核之后录入常识库,持续迭代。另外,在实际的应用过程中,问答常识库的类型囊括信息中心、组织人事处、后勤管理处、保卫处、计划财务处、离退休工作处等各种部门需要的业务常识数据。

2. 构建常识库的过程

百分点认知智能实验室:智能对话技术应用和实践

常识库的主要来源囊括:历史的问答和咨询数据、业务常识梳理积累、规章制度和流程等内容、辅之以同义词词库等外部数据,在功能上设立新建常识、导出常识、导入常识等。举个例子来说明常识库的格式,例如“北京分为多少区||北京行政区划||北京有四个区吗”,这个个成绩都是语义等价的,其一级分类为中国,二级分类为北京,对应的答案是“2015年北京市辖东城、西城、朝阳、丰台、石景山、海淀、门头沟、房山、通州、顺义、昌平、大兴、怀柔、平谷、密云、延庆16个市辖区(合计16个地市级行政区划单位);#n150个街道、143个镇、33个乡、5个民族乡(合计331个乡级行政单位)。||北京一共有16个区;”如果新增问答常识,那么一级分类、二级分类、成绩和回答是必须要添加的,以“||”作为分割多个成绩和答案的分隔符等。

在配置中心,也可以通过可视化的配置功能,兑现问答意图、QA问答库、闲谈库等常识的快速创建以及分类管理。

3. 如何找到语义等价的问句

构建问答常识库之后,在检索常识库的过程中,最重要的是如何找到与输入语义等价的问句,如下图所示:

百分点认知智能实验室:智能对话技术应用和实践

常用的相似度算法囊括余弦相似度、编辑距离、关键词重合度、BM25等等,实际使用中是有用,但仍然不够,因为可能遇到如下成绩:

字面相似的句子语义不等价

字面不相似的句子语义等价

例如成绩“什么是新冠肺炎”和“解释下新冠肺炎的定义”是语义等价,但和“什么是支气管肺炎”却不是语义等价的,采用编辑距离之类的算法是无法鉴别的。因而,只有鉴于语义理解的模型才能鉴别出来,这里囊括两类,一是传统机器学习方法,二是深度迁移学习方法。

4. 鉴于BERT和BIMPM的语义等价模型方案

我们采用了鉴于BERT和BIMPM的语义等价模型方案,模型的网络结构如下图所示:

百分点认知智能实验室:智能对话技术应用和实践

BIMPM本身是十分经典的模型,底层是通过word2vec向量来从事语义立室计算,这里我们将word2vec词向量全部替换为BERT的最上面若干层的输出,并将原有模型中的BI-LSTM结构,替换为Transformer,以提高其在序列性上的表现,实际测试中,该模型在Quora和SLNI数据集中达到了state-of-the-art的效果,如下图所示:

百分点认知智能实验室:智能对话技术应用和实践

上面的表格中显示了BERT层数在效果表现上的差异,其中使用BERT最上面三层的参数,作为模型的输入,整体表现效果最佳。

5. 智能问答中语义等价模型

接下来介绍智能问答中语义等价模型的训练、优化和发布过程,该模型的目标是判断两个问句在语义上是否完全等价。

模型的具体训练和发布闭环流程,如下图所示:

百分点认知智能实验室:智能对话技术应用和实践

在完成对标注数据样本集的模型训练,天生模型之后,我们将在沙盒环境中测试模型的表现,针对模型表现不好的样本,提取并标注再放入数据集重新训练调优,模型发布至生产环境之后,针对实际使用中未鉴别样本、误鉴别样本和新高频样本做对话分析,从事模型优化后再重新发布模型。

实例:疫情问答系统

此问答系统鉴于上述技术,采用疫情相关的问答常识库,提供智能化、自动化的疫情常识问答,并且兑现了实时统计数据、实时门诊咨询、实时数据咨询、协助求医报警等。

百分点认知智能实验室:智能对话技术应用和实践

四、常识图谱问答的技术兑现

1. 鉴于常识图谱问答的算法兑现原理

本系统主要是通过将输入问句,转化为SparQL的语句,兑现对常识图谱的智能问答,例如武汉大学出了那些科学家,需要鉴别出武汉大学和科学家的两个盘问条件才能失去交集答案,当不能使用常规NER鉴别出实体的时候,可以将训练语料中的实体词汇导入到ES搜索引擎中,兑现对一些难以鉴别样例的盘问。具体兑现原理,如下图所示:

百分点认知智能实验室:智能对话技术应用和实践

首先针对用户成绩,经过文本预处理,先从事实体鉴别,将实体送入别名词典和ES中去,失去备选的实体名称;再成绩分类,这一步是为了失去成绩结果的模板类型是什么,然后槽位预测,填写实体和关系槽位;在实体分析模块中,针对实体鉴别失去的备选实体,通过语义特征和人工特征从事实体消歧和实体检索,天生实体链接,并将实体填入SparQL盘问模板语句之中;继而,根据上一步实体链接,找到实体在常识图谱中的所有关系,并对所有关系和用户成绩语句从事语义立室的排序,失去了相似度最高的关系路径,并将该实体在该关系下的结果填入SparQL的盘问模板之中;最后,根据填写完成的盘问语句,在图数据库之中检索校验,失去答案。

仔细来谈,在成绩分类部分中,一个成绩所属的类型有三个判断依据:

链式和夹式,链式解释其盘问语句遵循链式查找,一步一步的盘问;夹式是指盘问的结果满足两个条件的交集;

成绩的跳数,指的是需要建立的盘问次数;

每一跳是问实体还是问关系。

2. 实体分析模块:实体链接

百分点认知智能实验室:智能对话技术应用和实践

在实体分析模块,实体链接就是用来处理成绩和候选实体从事立室的步骤,以确定所需的实体究竟是哪一个实体,毕竟同名实体是比较常见的。MatcgZoo是一款深度文本立室的工具,支持DRMM、MatchPyramid、MV-LSTM、DSSM等深度立室模型。采用该工具,我们需要准备实体立室的正负样本,将<成绩、SparQL>样本数据中,成绩和正确的候选实体形成实体链接模型的正样本,错误候选实体形成负样本。在模型的改进方面,将上述失去的文本立室特征和人工特征结合,使用stacking模型取得更好的效果。

3. 盘问天生模块:路径排序

百分点认知智能实验室:智能对话技术应用和实践

在盘问天生模块,针对成绩和天生候选盘问立室的成绩上,就需要兑现路径排序。这里使用了孪生网络来判断其语义相似度,正负样本天生与实体分析模块类似,在模型改进上,BERT向量会比传统词向量取得更好的效果。

上面的方案在2020CCKS大赛上取得了F1为0.901的成绩,并部署在GPU平台上响应时间只需要200ms。

五、NL2SQL问答的技术兑现

与上述两种问答类型不同的是,NL2SQL问答不是鉴于问答对或者常识图谱常识库,它是鉴于结构化数据表从事智能问答,兑现自然语言转SQL盘问的功能。

1. NL2SQL问答的技术兑现原理

百分点认知智能实验室:智能对话技术应用和实践

首先,针对自然语言盘问语句,使用分词、词性标注、实体鉴别、依存句法等对句子从事句法分析,然后使用规则、词向量、语言模型、深度学习等多种方法填充语义槽,具体囊括盘问字段、聚合函数、筛选条件、分组字段等,然后鉴于这些填充的信息天生对应的SQL盘问语句。

在经典的NL2SQL方案中,鉴于Seq2Seq的X-SQL模型是十分常见的,该模型的思路是先通过 MT-DNN 对原始成绩及字段名称从事编码,再在成绩前面人为地添加一个 [CXT] 用于提取全局信息。中间的 Context Reinforcing Laryer 层是这个模型的核心部分,它的目的是把 MT-DNN 失去的预训练编码在 NL2SQL 任意上从事增强和重组。这个中间层不仅能体现上下文信息,还能通过 Attention机制对字段名称的编码从事强化。这一层输出的结果囊括成绩的编码,以及强化后的字段编码,后面的输出层都会在这个基础上从事。输出层囊括6个子模型:S-COL和S-AGG 用于预测 select 的字段,只依赖于强化后的字段名称编码,通过 softmax 对每个字段打分就行了;W-NUM 只依赖全局信息,用于预测 where 条件个数;W-COL、W-OP和W-VAL 用于预测过滤条件的具体内容,通过组合字段编码,当前的 where 条件编号及成绩编码,通过softmax 评分就能失去需要的结果。

百分点认知智能实验室:智能对话技术应用和实践

这个架构已经十分完善了,但是由于数据的局限,模型无法预测多个 select 及 group 的内容。而且模型完全依赖字段名称去提取过滤条件和select的内容,在中文字段名称特征不够明显或者领域数据与训练数据偏差较大时,容易出错。我们提出了一种结合依存语法树的新方案在实际项目中失去了应用,下图显示此新方法的具体思路:

百分点认知智能实验室:智能对话技术应用和实践

2. 鉴于X-SQL和依存句法树的NL2SQL

首先,对问句从事分词,再做依存句法分析,失去问句每一个成分在词性、实体、是否为数据表字段、聚合函数等信息,再经过词库和后序遍历解析依存树,将各个问句成分组合,最终失去解析结果。在鉴于X-SQL+句法分析+时间模板的模型设计下,达到90%以上的解析准确率,达到实用的效果。

总结

以上就是百分点关于智能问答技术的全部分享,总结起来有以下三点:

(1)鉴于预训练模型的深度迁移学习技术在智能问答中将失去普遍应用。

(2)NL2SQL问答技术目前还存在很多的技术挑战和提升空间,是目前前沿热门的技术研究方向。

(3)垂直行业性的智能问答场景,技术更容易落地,用户能获得更好的问答体验。

注:本文转载自DataFunTalk,转载请注明出处。

原创文章,作者:百分点科技,如若转载,请注明出处:https://www.iaiol.com/news/bai-fen-dian-ren-zhi-zhi-neng-shi-yan-shi-zhi-neng-dui-hua/

(0)
上一篇 2021年 3月 10日 下午5:04
下一篇 2021年 3月 11日 上午11:28

相关推荐

  • 一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

    来自商汤、西安交通大学等机构的研究者提出了一种通用感知架构 Uni-Perceiver ,该方法可以更好地将预训练中学到的知识迁移到下流工作中。

    2021年 12月 12日
  • 视频天生无需GAN、VAE,谷歌用聚集模型联合训练视频、图象,实现新SOTA

    聚集模型正在不断的「攻城略地」。

    2022年 4月 10日
  • 华盛顿大学《天生模型》2020秋季课程完结,课件、讲义全部放出

    这门课聚焦天生建模技术的理论和数学基础,探讨多种天生模型技术。

    2021年 1月 29日
  • 「清华系」视频天生公司生数科技宣布完成新一轮数亿元融资

    近日,北京生数科技有限公司(以下简称“生数科技”)宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品立异及市场拓展。本轮由华兴资本担任独家财务顾问。生数科技成立于2023年3月,是全世界领先的多模态大模型公司,致力于图象、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技能人才。此前公司

    2024年 3月 12日
  • 每小时挪动800例货箱,波士顿能源推出商用仓储呆板人Strentch

    当地时间3月29日,波士顿能源公司宣布推出一款可间接搬运货箱的智能仓储呆板人Stretch,支持物流行业对灵巧自动化解决方案日益增长的需求。这款呆板人的首次亮相,标志着波士顿能源正式进入快速增长的堆栈自动化市场。波士顿能源的标志性产品是仿生呆板狗Spot,这款呆板人设想用于从海上石油钻机到深井等环境中歇息。与波士顿能源以往的产品不同,Stretch不是以人类或动物为模型,而是以实用为目的。报道 | 呆板之能Stretch由一个带轮子的方形挪动底座,一个带有摄像头和其他传感器的“感知桅杆&rdq

    2021年 3月 30日
  • AI「读图领会」首超人类!阿里达摩院刷新全球VQA纪录

    历经六年,AI 在这一手艺上得分首超人类。

    2021年 8月 12日
  • 量子力学与机械进修相结合,展望低温下的化学反应

    编辑/凯霞在低温下从氧化物中提炼金属不仅对于钢铁等金属的生产至关重要,而且对回收利用也必不可少。但当前的提炼过程是碳密集型的,会排放大量温室气体。钻研人员一直在探索开发「更绿色」的工艺法子。第一性道理理论的自下而上的计较过程设想,将是一个有吸引力的替代方案,但迄今为止尚未实现。来自哥伦比亚大学的钻研团队开发了一种新的计较技术,将量子力学和机械进修相结合,可准确展望金属氧化物对其「贱金属」的复原温度。该法子在计较上与常规计较一样有效,并且在测试中,比利用量子化学法子对温度效应的计较要求高的模拟更准确。该钻研以「Aug

    2021年 12月 13日
  • 千字1.5元、研究生学位论文3次收费,知网凋谢集体查重办事,网友:「卒业了才凋谢」

    不过,对于 2022 届的卒业生来说,知网的这一决定来得似乎晚了一点。

    2022年 6月 12日
  • 大咖齐聚、思想碰撞、探索前沿,2021WAIC· 隐衷盘算学术交流会全日程公布

    2021 年世界人工智能大会(WAIC)将于 7 月 7 日 – 10 日在上海举办,本届大会继续秉持「智联世界」的理念,以「众智成城」为主题,促进全球人工智能翻新思想、技术、应用、人才和资本的集聚和交流,推动全球科技的翻新协同,助力打造人工智能世界级产业集群。7 月 8 日下午,由世界人工智能大会组委会指导,蚂蚁集团、机器之心和 CCF YOCSEF 上海学术委员会共同主办的「2021 WAIC· 隐衷盘算学术交流会」将于上海世博展览馆 2 号会议室隆重举行。本届大会程序委员会主席:上海交通大学盘算

    2021年 6月 23日
  • 京东云发布618十大手艺,意在带动行业的新一轮变革

    6月15日,以“解码京东618:京东云发布十大手艺使用趋向”为主题的媒体沙龙在京东举办,这也是京东团体统合云、零卖、物流多方618手艺团队首次全面解密亿级消费洪峰、全供应链最复杂场景背面的手艺图景。活动现场,京东零卖逐层揭开了库存周转31.2天,这一世界级数字背面的奥秘,并由京东物流“接力”分享了如何通过一体化供应链完成全国超200座城市分钟级投递的过程,展示了商品从零卖到物流,最后送至消费者手中的全链路过程。与此同时,作为京东618的手艺基石,京东云全面展现了在面对

    2021年 6月 16日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注