超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

长期以来,评估机器天生的文本比较困难。近日,CMU邢波(Eric Xing)教授和UCSD胡志挺(Zhiting Hu)教授的团队提出用一种运算符,一致各类天生恣意的评估方式,为未来各种新恣意、新要求提供了更加一致的指导。实验表明,基于一致框架安排的评估标的,在多个恣意上超过了现有标的与野生评分的类似度,现在通过PyPI和GitHub可以直接调用。

自然谈话天生(NLG)包括机器翻译、纲要天生、机器对话等自然谈话处理 (NLP)恣意。这些恣意虽然都要求天生通顺的文本,但是最终的表达标的往往有很大的区别。比如说,翻译恣意需要完整、精确地表达原文的含义;纲要天生需要简洁、准确地体现原文最重要的信息;对话系统则需要与用户进行生动、有用的对答。过去几年间,研讨人员在这些恣意的建模方面,取得了很大的进步。然而,评估谈话天生的结果,却依旧比较困难。野生评估最准确,但是非常昂贵耗时。自动评估则反过来,规模化比较容易,但在如何评估方面比较模糊。传统上的评估步骤是比较模型天生的文本与人写的参考文本,但近年的研讨表明,随着模型的进步,这样的步骤已经越来越难以区分文本的好坏。事实上,在AAAI 2021会议上的DSTC9对话系统比赛中,野生评分已经不再考虑参考文本,而是依靠评分员综合对话历史、知识情景和模型回答,作出评判。同时,实际应用中的部署,也要求对天生模型作出多维度的评估,而这些是传统的单一标的做不到的。比如,2021年百度主办的「千言:面向事实一致性的天生评测比赛」中,除了传统的信息选择标的外,还考察了事实性标的,并为之安排了独立的评估流程。之前提到的DSTC9比赛的各个分赛也分别考察了3-8个不同的维度标的。为了解决如上所述的新需求,相关工作提出了各种各样的评估步骤和新标的,但是这些步骤往往是针对具体的恣意和标的而安排。对于日新月异的各类恣意,要评估什么?如何评估?目前还缺乏系统的指导。在这个方向上,CMU(卡耐基梅隆大学)、Petuum Inc.、MBZUAI(穆罕默德·本·扎耶德野生智能大学)和UCSD(加州大学圣迭戈分校)的研讨团队提出了一个自然谈话天生评估的理论框架,为未来各种新恣意和新要求,安排评估流程时,都提供了更加一致的指导。首先,研讨人员根据信息从输入到输入的变化方式,把谈话天生恣意分为三大类,每类恣意对输入提出不同的评估需求。通过给新恣意归类,就可以对「评估什么」有所启发。其次,他们用一种称为「信息对齐」的运算符一致了所有恣意类别的评估方式,从信息对齐的角度出发安排评估标的,可以解决大量的「如何评估」问题。论文中基于信息对齐,一致安排了一系列评估标的,在评估多种恣意(纲要天生、风格变换和知识对话)中与人类评分的类似度最高超过现有标的57.30%。论文中安排的评估标的已经上传到Python库,用pip install就可以直接安装。研讨人员在GitHub上也公开了代码,并提供了数种训练好的信息对齐模型,欢迎各位同学在研讨中调用。

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

论文链接:https://arxiv.org/pdf/2109.06379.pdf

代码和API链接:https://github.com/tanyuqian/ctc-gen-eval

Python 安装:pip install ctc_score

评估什么:谈话天生恣意的分类根据恣意输入(X)和输入(Y)文本中,信息量的关系,研讨者认为可以把谈话天生恣意分为三大类:紧缩、变换和创造,分别对应输入大于、等于和小于输入。每一类恣意的标的都有区别,也对输入文本提出了各自的要求。我们可以通过对新恣意对分类,对「评估什么」有所启发。紧缩类恣意(Compression)

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

标的:把输入信息中重要的部分,呈现在输入中

举例:纲要天生(Summarization)、图像描述(Image Captioning)、结构文本天生(Data-to-Text)和问题天生(Question Generation)

评估重点:1)输入信息要完全来自输入;2)输入信息应该是输入中的重要信息

变换类恣意(Transduction)

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

标的:把输入信息中的某一方面变换,其他保持不变

举例:机器翻译(Translation)、文本复述(Paraphrasing)、文本风格迁移(Style Transfer)和文本简化(Language Simplification)

评估重点:输入要尽量完整地保留输入的信息

创造类恣意(Creation)

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

标的:基于输入和外部信息,输入新的信息

举例:机器对话(Dialog)、建议天生(Advice Generation)、故事天生(Story Generation)和诗歌天生(Poetry Generation)

评估重点:1)输入要充分回应输入;2)输入要正确地使用外部信息

这里可以看到,评估的重点取决于恣意中输入输入的信息量变化,因此,如果能够测量输入输入信息重合度,就可以评估所有类别的天生恣意。如何评估:信息对齐为了测量如上所述的重合度,研讨者引入了「信息对齐」这个运算符,这样就一致了所有天生恣意的评估方式。信息对齐是说,对于文字A和任何数据B,可以对于A的每个词都算出一个置信度,这个词的信息有没有在B中反映出来。具体的数学形式为如下所示的向量:超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架在实际中,这个数据B不一定要是文字,也可以是任何模态的数据,只要有一个模型(Alignment Model)能算出这个对齐的置信度。A、B、模型和对齐向量的关系如下图所示:

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

下面,研讨者展示了如何一致地用信息对齐这个算符,来定义各种谈话天生恣意的评估标的。用信息对齐一致安排评估标的紧缩类恣意对于紧缩类恣意,研讨者以纲要天生作为一个例子:

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

变换类恣意对于变换类恣意,研讨者以文本风格迁移为例:

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

创造类恣意对于创造类恣意,研讨者以知识对话为例:

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

现在已经用信息对齐运算符定义了这么多评估标的,下一步来看这个运算符是怎样实现的。信息对齐的三种实现步骤研讨者把信息对齐当作一个预测问题建模,提出了三种基于预训练模型(Pretrained Language Models)的实现步骤,普遍采用自监督学习。模型准确度可以通过与野生标注比较来评估。词向量召回(Embedding Matching)

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

判别模型(Discriminative Model)

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

回归模型(Aggregated Regression)

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

实验结果实验结果表明,研讨者的一致安排的评估标的,与野生评分的类似度,超过之前的针对恣意特别安排的标的,最高超过现有标的57.30%。另外,研讨者发现,对齐模型预测准确度越好,他们的标的就越接近人的评估。超过现有标的最多57.30%

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

对齐模型准确度与野生评分类似度有直接关系研讨者的对齐模型普遍使用自监督学习,但使用野生标注训练可以有效提升准确度和以此实现的评估标的。与野生评分的类似度如下图所示:

超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

这说明了:只要能够改善对齐预测模型,就能改善一大批评估标的。我们可以把对齐预测作为一个单独的恣意,这个恣意的进步直接提升评估谈话天生的准确度。这项工作开启了可组合(Composable)的文本评估流程。像软件工程一样,研讨者表示可以把这个系统分为若干模块,这些模块可以独立地改进、规模化、和诊断,未来期待有更多的探索。封面来源:https://soa.cmu.edu/

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/chao-yue-xian-you-biao-di-573-xing-bo-jiao-shou-hu-zhi-ting/

(0)
上一篇 2022年 1月 27日 下午2:05
下一篇 2022年 2月 6日 下午12:54

相关推荐

  • 用深度进修解决游览推销员成绩,研究者走到哪一步了?

    最近,针对游览推销员等拉拢优化成绩开发神经网络驱动的求解器引起了学术界的极大兴趣。这篇博文介绍了一个神经拉拢优化步骤,将几个最近提出的模型架构和进修范式统一到一个框架中。透过这一系列步骤,作者分析了深度进修在路由成绩方面的最新进展,并提供了新的方向来启发今后的研究,以创造实际的价值。

    2022年 4月 6日
  • 终于可用可拉拢函数变换库!PyTorch 1.11发布,弥补JAX短板,撑持Python 3.10

    PyTorch 1.11、TorchData 和 functorch 现已推出。

    2022年 3月 13日
  • 汽车智能创业公司亿咖通科技,再获超2亿美元A+轮融资

    2021 年 2 月 25 日,亿咖通科技(ECARX)再获 A + 轮融资。此次融资由中国国有资本风险投资基金(中国国新控股集团旗下基金)领投,融资额超 2 亿美元。

    2021年 2月 25日
  • 阿里云发布第一台设计师云电脑:单运用最高1024核的超级工作站

    10月18日云栖大会开放日上,阿里云基于新一代无影架构的两款一体机已对观众展出。两款新品分为23.8寸标准版和27寸Pro版,Pro版为手绘场景配有触控屏和触控笔,官方先容为首款设计师云电脑。在云栖大会展区,观众已经可以对一体机进行初步感受:在一体机屏幕上,过去在Windows、Linux、安卓或国产操作零碎的3D渲染、视觉设计、编程环境、手机游戏等软件,10多个演示运用图标聚集于一屏。用户无需切换零碎,无需下载,即点即用。单运用经过适配,目前最高可运用1024核CPU和8块高性能GPU。图注:观众在展区感受无影一

    2021年 10月 18日
  • google并未放弃TensorFlow,将于2023年发布新版,明确四大支柱

    2015 年,google大脑开放了一个名为「TensorFlow」的钻研项目,这款产品迅速流行起来,成为人工智能业界的主流深度进修框架,塑造了现代呆板进修的生态系统。从那时起,成千上万的开源贡献者以及众多的开发人员、社区组织者、钻研人员和教育工作者等都投入到这一开源软件库上。然而七年后的今天,故事的走向已经完全不同:google的 TensorFlow 失去了开发者的拥护。因为 TensorFlow 用户已经开始转向 Meta 推出的另一款框架 PyTorch。众多开发者都认为 TensorFlow 已经输掉了这场战争,并将其比

    2022年 10月 24日
  • 淘宝推荐、视频搜刮背后的检索技巧:深度揭秘达摩院向量检索引擎Proxima

    淘宝搜刮推荐、视频搜刮背后使用了什么样的检索技巧?非结构化数据检索,向量检索,以及多模态检索,它们到底处理了什么课题?今天由阿里达摩院的科学家从业务课题出发,抽丝剥茧,深度揭秘达摩院内部技巧,向量检索引擎 Proxima,以及相关领域的现状、挑战和未来。

    2021年 3月 8日
  • 百分点数据科学实验室:产物生命周期料理创新应用落地实践

    编者按产物生命周期料理在数字经济发展过程中是必不可少的,在零售快消行业可用来指导产物的以销定采和精准投放,在IT行业可辅佐软件应用等产物的开发进程料理,同时还也会对环境料理产生影响,对建筑业在节能减排、减轻环境污染层面起到辅佐作用。因此,及时把控产物生命周期进程,用数据智能技术赋能料理至关重要。百分点数据科学实验室鉴于产物生命周期理论在多个行业的落地实践,总结了如何准确把握产物生命周期的四个阶段及辨别方法论。众所周知,一种产物在商场上的销售情况和获利能力并非是一成不变的,因此,任何一家企业的产物不可能永远畅销,但企

    2021年 3月 25日
  • 除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

    GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项尝试,效果还行,及格水平。

    2021年 3月 2日
  • 在了解通用类似定理之前,你可能都不会了解神经搜集

    通用类似定理很好地解释了为什么神经搜集能工作以及为什么它们经常不起作用。

    2021年 9月 7日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注