模型鲁棒性好不好,复旦大学一键式评测平台告诉你

复旦大学自然言语处置惩罚实验室发布模型鲁棒性评测平台 TextFlint。该平台涵盖 12 项 NLP 使命,囊括 80 余种数据变形步骤,花费超 2 万 GPU 小时,进行了 6.7 万余次实验,考证约 100 种模型,选取约 10 万条变形后数据进行了言语合理性和语法正确性人工评测,为模型鲁棒性评测及提升提供了一站式解决方案。

模型鲁棒性好不好,复旦大学一键式评测平台告诉你

项目地址:https://github.com/textflint

官方网站:http://textflint.io

论文链接:https://arxiv.org/pdf/2103.11441.pdf

引言近年来,随着自然言语处置惩罚技术的不断突破,深度进修模型在各项 NLP 使命中的表现正在稳步攀升。2018 年 1 月,在斯坦福大学发起的 SQuAD 阅读理解评测使命中,来自微软亚洲研究院的自然言语计算组所提出的算法率先赶超了人类。短短三年后,微软的 DeBERTa 和谷歌的 T5+Meena 模型在包含了多种自然言语处置惩罚使命的综合评测集合 SuperGLUE 上再次超越了人类。近日 IBM 号称 “首个能在复杂话题上与人类辩论的 AI 系统” 的 Project Debater 登上了 Nature 杂志的封面,该系统在 78 类辩题中获得了接近人类专业辩手的均匀评分。我们不禁要问,人类真的被打败了吗?事实上,纵使这些 NLP 模型在实验数据集上的表现十分惊人,在实际利用中我们却很难感知到自然言语处置惩罚系统 “超越人类” 的言语理解水平。难倒这些看似 “聪明” 的模型,只需要一个简单的“逗号”,即便是基于赫赫有名的预训练言语模型 BERT 的算法也不例外。例如,“汉堡很好吃薯条一般”对汉堡的评价是正面的,但当我们插入 “,” 时,一些模型就会将 “汉堡很好吃,薯条一般” 判别为对汉堡的负面评价。一个微小且无关紧要的改动就能使自然言语处置惩罚系统失效,诸如此类的例子屡见不鲜。

模型鲁棒性好不好,复旦大学一键式评测平台告诉你

鲁棒性何为为何大杀四方的优秀模型在纷繁复杂的现实场景中纷纷折戟沉沙?其中一个很重要的原因是此前匮乏对模型鲁棒性的重视和深入探讨,导致模型只能在特定语料中圈地为王,在模型的效果评测中也仅仅关心在特定尝试语料上的功能。如何帮助模型走出这样的困局,给自然言语处置惩罚范围带来质的飞跃,是实现下一步技术发展的紧要使命。鲁棒性是机器进修模型的一项重要评价指标,主要用于检验模型在面对输入数据的微小变动时,是否依然能保持判断的准确性,也即模型面对一定变化时的表现是否稳定。鲁棒性的高低直接决定了机器进修模型的泛化能力。在研究范围中,许多模型只能在某一特定的数据集上呈现准确的结果,却不能在其他数据集上复刻同样优异的表现,这就是由于模型对新数据中的不同过于敏感,匮乏鲁棒性。在现实世界的利用场景中,模型要面对的是更加纷繁复杂的言语利用方式,待处置惩罚的数据里包含着更加庞杂的变化。一旦匮乏鲁棒性,模型在现实利用中的功能就会大打折扣。在尝试数据集上获得高分是远远不够的,机器进修模型的设计目标是让模型在面对新的外部数据时依然维持精准的判断。因此,为了确保模型的实际利用价值,对模型进行鲁棒性评测是不可或缺的。步骤 & 实验目前已有一些正在关注模型鲁棒性的工作,但大多只针对单个的 NLP 使命,或是只使用了少量的数据变形步骤,匮乏系统性的工具集合。针对这一问题,复旦大学自然言语处置惩罚实验室展开了大规模的鲁棒性测评工作,在桂韬博士、王枭博士、张奇教授、黄萱菁教授的主导下,20 余位博士生和硕士生共同参与,历时 9 个月,开发了面向自然言语处置惩罚的多言语鲁棒性测评一站式平台 TextFlint。TextFlint 包含针对 12 项 NLP 使命,设计了 80 余种数据变形步骤(20 余种使命通用变形、60 余种范围特有变形),涵盖了范围相关黑盒变形、范围无关黑盒变形、白盒变形、分组抽样、分析报告等等一系列功能。为了确保数据变形步骤符合言语使用,针对不同使命上的所有变形选取约 10 万条变形后的语料进行了言语合理性(Plausibility)和语法正确性(Grammaticality)人工评测,确保了变形步骤的可用性。使用者仅仅需要添加几行代码,就可以完成模型鲁棒性的详细检测。

模型鲁棒性好不好,复旦大学一键式评测平台告诉你

对于绝大多数的研究人员,使用 TextFlint 默认参数就可以一键化生成全方位的鲁棒性考证数据,几乎没有任何进修成本。对于有复杂定制需求的用户(例如对数据进行多个变形的组合操作),通过编写配置文件即可满足需求。此外,TextFlint 还提供便捷的鲁棒性可视化报告功能,多维度的鲁棒性分析报告,可以为开发者指引了模型进一步优化方向。用户可以根据报告结果,为模型生成扩展样本或对抗样本,从而直接提升 NLP 模型鲁棒性。利用 TextFlint,复旦大学自然言语处置惩罚实验室还对包括分词、词性标注、句法分析、命名实体识别等在内的 12 项自然言语处置惩罚使命的约 100 个模型进行了复现和考证。部分使命还考证了 Microsoft、Amazon 以及 Google 的商业 API 接口结果,共计花费了 2 万多个 GPU 小时,完成了 6.7 万余次实验(全部评测结果可访问 TextFlint.io 获取)。例如针对细粒度情感倾向分析 SemEval 2014 Restaurant 数据集,将 847 个带有明显情感词的尝试用例进行文本变换,使用转换评论对象倾向性极性(RevTgt),转换非评论对象倾向性极性(RevNon)和原句后增加干扰句(AddDiff)三种不同的变形分别生成了 847、582 和 847 个尝试实例。10 种不同模型在上述变形语料上的分析结果如下所示: 

模型鲁棒性好不好,复旦大学一键式评测平台告诉你

从结果中可以看到,原始尝试集上所有模型的精度(Accuracy)和宏均匀 F1(Macro-F1)得分都非常高,均匀精度接近 86%,均匀宏均匀 F1 达到 65%。但是,这些指标在变形后的三个新尝试集上均有显著下降。转换评论对象倾向性极性变形使得模型的功能下降最多,因为它要求模型更精准地关注目标情感词。原句后增加干扰句变形导致非 BERT 模型的功能下降显著,这表明大多数非预训练模型匮乏将相关方面与无关方面进行区分的能力。总结大规模的其他范围测评结果也同样显示,现有算法在大多数使命的测评数据集上的表现都较原始结果有所下降。即便是基于大规模预训练模型 BERT 的算法在一些使命的精度指标上也呈现了超过 50% 的降幅,这意味着这些算法在真实场景中几乎是不可用的。从以上大规模的评测结果可以看出,目前绝大多数算法模型的鲁棒性都亟待提升,这是一场无可回避的技术攻坚。复旦大学自然言语处置惩罚实验室希望通过 TextFlint 这一面向自然言语处置惩罚的鲁棒性评测工具集合,为研究人员提供一个便捷的模型鲁棒性考证步骤,从而推动自然言语处置惩罚算法更好地利用于真实场景。同时,也呼吁将模型鲁棒性纳入模型评估的必要维度,推动自然言语处置惩罚技术实现有效良性的发展。在未来,复旦大学自然言语处置惩罚实验室也将投入更多的人力和算力,进一步完善 TextFlint 工具的使命覆盖范围和模型考证数量,并开展面向 NLP 使命的高鲁棒可解释模型的原创研究。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/mo-xing-lu-bang-xing-hao-bu-hao-fu-dan-da-xue-yi-jian-shi/

(0)
上一篇 2021年 4月 6日 下午2:37
下一篇 2021年 4月 6日 下午2:44

相关推荐

  • 给5G基带也加上呆板进修单元:高通的AI脑洞还有太多

    最先进的人工智能手艺,并不总意味着数块 GPU、每秒算力上 E 的超算。使用最广泛的移动芯片上,人们正在使用最先进的 AI 手艺。最近,高通再次利用 AI 兑现了「突破性的 5G 效能」。在巴塞罗那举办的 MWC 2022 国际通信展上,高通 CEO 安蒙(Cristiano Amon)发布了全球首款搭载 AI 估计核心的 5G 通信基带骁龙 X70。在显卡、手机 CPU 旁边出现 AI 估计单元之后,现在连通信基带也要专门的 AI 芯片加持了 ,这不仅让人要问:「有必要吗?」首款搭载 AI 核心的 5G 基带根据

    2022年 3月 10日
  • 这场较量,让上百个AI智能体「卷起来了」

    过去数年,随着神经网络、基于加强进修的自我博弈、多智能体进修和模仿进修等通用机器进修理论的突破,AI 智能体的计划才智实现了飞跃式发展。可以看到,不管是谷歌、微软、IBM 等全球科技巨头,还是国内一众 AI 龙头企业,在学术研究和产业落地上,它们的关注焦点都在从智能感知向智能计划过渡。「计划 AI」成了领域内的必争之地。今年 5 月,谷歌旗下的机构 DeepMind 发布 Gato,这款全新的 AI 智能体能够在「广泛的情况中」完成 604 项不同的任务。Gato 的诞生,再次刷新了单智能体的才智上限。当然,关于

    2022年 8月 19日
  • FOCS 2021 | 针对Insdel间隔的局部可解码编码的下界

    近日,北京大学前沿计较研讨中心助理教授程宽博士与其合作者的论文“Exponential Lower Bounds for Locally Decodable and Correctable Codes for Insertions and Deletions”发表在理论计较机科学国际顶级会议 FOCS 2021上。这篇文章探讨了编码理论中的一个重要课题,Locally Decodable Code 在 insertion deletion distance 场景下的下界。

    2022年 7月 18日
  • 时在中春,阳和方起——机械之心 AI 科技年会本月见

    这是一次注重交换的聚会,所以叫「年会」,没叫「大会」。

    2022年 3月 1日
  • 优必选科技四上春晚,“垦荒牛”机器人展现硬科技革新力量

    2月11日,在央视2021牛年春晚的舞台上,优必选科技全新研发的首款大型四足机器人化身“垦荒牛”,与刘德华、王一博、关晓彤等一起呈现了科技感十足的创意表演《牛起来》。它们以拼搏进取的深圳 “垦荒牛”为设计原形,融合祥云及华夏红等传统文化元素,以绚丽的灯光及机械结构诠释科技美感,伴随激昂的音乐奔腾向前。从2016年春晚540台Alpha机器人登台齐舞到2018年春晚24台Jimu汪汪组队拜年,再到2019年春晚6台Walker机器人与演员同台表演歌舞《青春畅想》……优必选科技已经四次登上春晚舞台,展示华夏人工智能和机

    2021年 2月 12日
  • 1600米深海沉船如何索求?斯坦福人形机器人实现远程人机交互下潜

    深海里面藏着许多秘密,沉船,坠机,数不尽的金银珠宝和历史记忆都埋藏在深海中。从前索求这些遗址的方法多为整体打捞,许多证据难以保存。近日,斯坦福大学的机器人团队研发出名为 OceanOneK 的水下人机交互机器人,通过远程操控,让人形机器人以最接近真人潜水的方式在水下 1600 米实现索求,最大程度地实现了人机交互,也最大程度地保护了遗址的完整性。

    2022年 7月 29日
  • 网易云信神经网络音频降噪算法:提升瞬态噪声抑制结果,适合移动端设备

    机器之心专栏网易云信音频实验室网易云信音频实验室自主研发了一个针对瞬态噪声的轻量级网络音频降噪算法(网易云信 AI 音频降噪),对于 Non-stationary Noise 和 Transient Noise 都有很好的降噪量,并且控制了语音旗号的损伤程度,保证了语音的质量和理解度。鉴于旗号处理的传统音频降噪算法对于 Stationary Noise(平稳噪声)有比较好的降噪结果。但是对于 Non-stationary Noise(非平稳噪声),特别是 Transient Noise(突发噪声)降噪结果较差,而且

    2021年 8月 19日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注