模型鲁棒性好不好,复旦大学一键式评测平台告诉你

复旦大学自然谈话处置实验室发布模型鲁棒性评测平台 TextFlint。该平台涵盖 12 项 NLP 义务,囊括 80 余种数据变形办法,花费超 2 万 GPU 小时,进行了 6.7 万余次实验,考证约 100 种模型,选取约 10 万条变形后数据进行了谈话合理性和语法正确性人工评测,为模型鲁棒性评测及提升提供了一站式解决方案。

模型鲁棒性好不好,复旦大学一键式评测平台告诉你

项目地址:https://github.com/textflint

官方网站:http://textflint.io

论文链接:https://arxiv.org/pdf/2103.11441.pdf

引言

近年来,随着自然谈话处置技术的不断突破,深度进修模型在各项 NLP 义务中的表现正在稳步攀升。2018 年 1 月,在斯坦福大学发起的 SQuAD 阅读理解评测义务中,来自微软亚洲研究院的自然谈话计算组所提出的算法率先赶超了人类。短短三年后,微软的 DeBERTa 和谷歌的 T5+Meena 模型在包含了多种自然谈话处置义务的综合评测集合 SuperGLUE 上再次超越了人类。近日 IBM 号称 “首个能在复杂话题上与人类辩论的 AI 系统” 的 Project Debater 登上了 Nature 杂志的封面,该系统在 78 类辩题中获得了接近人类专业辩手的平衡评分。我们不禁要问,人类真的被打败了吗?

事实上,纵使这些 NLP 模型在实验数据集上的表现十分惊人,在实际运用中我们却很难感知到自然谈话处置系统 “超越人类” 的谈话理解水平。难倒这些看似 “聪明” 的模型,只需要一个简单的“逗号”,即便是基于赫赫有名的预训练谈话模型 BERT 的算法也不例外。

例如,“汉堡很好吃薯条一般”对汉堡的评价是正面的,但当我们插入 “,” 时,一些模型就会将 “汉堡很好吃,薯条一般” 判别为对汉堡的负面评价。一个微小且无关紧要的改动就能使自然谈话处置系统失效,诸如此类的例子屡见不鲜。

模型鲁棒性好不好,复旦大学一键式评测平台告诉你

鲁棒性何为

为何大杀四方的优秀模型在纷繁复杂的现实场景中纷纷折戟沉沙?其中一个很重要的原因是此前短缺对模型鲁棒性的重视和深入探讨,导致模型只能在特定语料中圈地为王,在模型的效果评测中也仅仅关心在特定尝试语料上的本能。如何帮助模型走出这样的困局,给自然谈话处置畛域带来质的飞跃,是实现下一步技术发展的紧要义务。

鲁棒性是机器进修模型的一项重要评价指标,主要用于检验模型在面对输入数据的微小变动时,是否依然能保持判断的准确性,也即模型面对一定变化时的表现是否稳定。鲁棒性的高低直接决定了机器进修模型的泛化能力。在研究畛域中,许多模型只能在某一特定的数据集上呈现准确的结果,却不能在其他数据集上复刻同样优异的表现,这就是由于模型对新数据中的不同过于敏感,短缺鲁棒性。

在现实世界的运用场景中,模型要面对的是更加纷繁复杂的谈话运用方式,待处置的数据里包含着更加庞杂的变化。一旦短缺鲁棒性,模型在现实运用中的本能就会大打折扣。在尝试数据集上获得高分是远远不够的,机器进修模型的设计目标是让模型在面对新的外部数据时依然维持精准的判断。因此,为了确保模型的实际运用价值,对模型进行鲁棒性评测是不可或缺的。

办法 & 实验

目前已有一些正在关注模型鲁棒性的工作,但大多只针对单个的 NLP 义务,或是只使用了少量的数据变形办法,短缺系统性的工具集合。针对这一问题,复旦大学自然谈话处置实验室展开了大规模的鲁棒性测评工作,在桂韬博士、王枭博士、张奇教授、黄萱菁教授的主导下,20 余位博士生和硕士生共同参与,历时 9 个月,开发了面向自然谈话处置的多谈话鲁棒性测评一站式平台 TextFlint

TextFlint 包含针对 12 项 NLP 义务,设计了 80 余种数据变形办法(20 余种义务通用变形、60 余种畛域特有变形),涵盖了畛域相关黑盒变形、畛域无关黑盒变形、白盒变形、分组抽样、分析报告等等一系列功能。为了确保数据变形办法符合谈话使用,针对不同义务上的所有变形选取约 10 万条变形后的语料进行了谈话合理性(Plausibility)和语法正确性(Grammaticality)人工评测,确保了变形办法的可用性。使用者仅仅需要添加几行代码,就可以完成模型鲁棒性的详细检测。

模型鲁棒性好不好,复旦大学一键式评测平台告诉你

对于绝大多数的研究人员,使用 TextFlint 默认参数就可以一键化生成全方位的鲁棒性考证数据,几乎没有任何进修成本。对于有复杂定制需求的用户(例如对数据进行多个变形的组合操作),通过编写配置文件即可满足需求。此外,TextFlint 还提供便捷的鲁棒性可视化报告功能,多维度的鲁棒性分析报告,可以为开发者指引了模型进一步优化方向。用户可以根据报告结果,为模型生成扩展样本或对抗样本,从而直接提升 NLP 模型鲁棒性。

利用 TextFlint,复旦大学自然谈话处置实验室还对包括分词、词性标注、句法分析、命名实体识别等在内的 12 项自然谈话处置义务的约 100 个模型进行了复现和考证。部分义务还考证了 Microsoft、Amazon 以及 Google 的商业 API 接口结果,共计花费了 2 万多个 GPU 小时,完成了 6.7 万余次实验(全部评测结果可访问 TextFlint.io 获取)。

例如针对细粒度情感倾向分析 SemEval 2014 Restaurant 数据集,将 847 个带有明显情感词的尝试用例进行文本变换,使用转换评论对象倾向性极性(RevTgt),转换非评论对象倾向性极性(RevNon)和原句后增加干扰句(AddDiff)三种不同的变形分别生成了 847、582 和 847 个尝试实例。10 种不同模型在上述变形语料上的分析结果如下所示: 

模型鲁棒性好不好,复旦大学一键式评测平台告诉你

从结果中可以看到,原始尝试集上所有模型的精度(Accuracy)和宏平衡 F1(Macro-F1)得分都非常高,平衡精度接近 86%,平衡宏平衡 F1 达到 65%。但是,这些指标在变形后的三个新尝试集上均有显著下降。转换评论对象倾向性极性变形使得模型的本能下降最多,因为它要求模型更精准地关注目标情感词。原句后增加干扰句变形导致非 BERT 模型的本能下降显著,这表明大多数非预训练模型短缺将相关方面与无关方面进行区分的能力。

总结

大规模的其他畛域测评结果也同样显示,现有算法在大多数义务的测评数据集上的表现都较原始结果有所下降。即便是基于大规模预训练模型 BERT 的算法在一些义务的精度指标上也呈现了超过 50% 的降幅,这意味着这些算法在真实场景中几乎是不可用的。从以上大规模的评测结果可以看出,目前绝大多数算法模型的鲁棒性都亟待提升,这是一场无可回避的技术攻坚。

复旦大学自然谈话处置实验室希望通过 TextFlint 这一面向自然谈话处置的鲁棒性评测工具集合,为研究人员提供一个便捷的模型鲁棒性考证办法,从而推动自然谈话处置算法更好地运用于真实场景。同时,也呼吁将模型鲁棒性纳入模型评估的必要维度,推动自然谈话处置技术实现有效良性的发展。在未来,复旦大学自然谈话处置实验室也将投入更多的人力和算力,进一步完善 TextFlint 工具的义务覆盖范围和模型考证数量,并开展面向 NLP 义务的高鲁棒可解释模型的原创研究。

给TA打赏
共{{data.count}}人
人已打赏
AI

新晋图灵奖得主Jeff Ullman受质疑,反对者:他享受了不该享受的荣誉

2021-4-6 14:37:00

AI

279位佳宾、19个论坛议程全公开,第五届未来调理100强大会亮点抢先看!

2021-4-6 14:44:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索