评介准则的差异极大阻碍了已有小样本进修格式鉴于统一的标准公平比较,也无法客观评介该领域的真实进展。近期,来自清华大学、DeepMind 等团队研究者在论文《FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding》中指出:现有小样本进修格式并不稳定有效,且目前已有任务不存在单一的小样本进修格式能够在大多数 NLU 任务上取得劣势机能。小样本自然语言了解领域发展依然面临着严峻的挑战!该任务被 ACL2022 主会接收。
论文地址:https://arxiv.org/abs/2109.12742
项目地址:https://github.com/THUDM/FewNLU
Leaderboard 地址:https://fewnlu.github.io/
本文贡献如下:(1) 该研究提出了一个新的小样本自然语言了解评介框架 FewNLU,并且从三个要害方面(即测试集小样本进修机能、测试集和考证集相关性、以及稳定性) 量化评估该评介准则的劣势。 (2) 研究者对该领域相关任务进行重新评估,结果表明:已有任务未准确估计现有小样本进修格式的绝对机能和相对差距;目前尚不存在单一在大多数 NLU 任务取得劣势机能的格式;不同格式的增益是劣势互补的,最佳组合模型的机能接近于全监督 NLU 系统等要害论断。(3) 此外本文提出 FewNLU,并建立了 Leaderboard,希望帮助促进小样本自然语言了解领域未来研究任务的发展。小样本自然语言了解评介框架模型选择对小样本进修是必要的吗?初步试验结果表明 (如表格 1 所示),就如已有大多数任务那样鉴于一组(根据既往试验经验) 预先固定的超参数的试验设置,并不是最佳选择。试验条件的细微变化或者扰动都会带来机能的急剧波动。鉴于小的考证集在不同试验中分别进行模型选择是不可或缺的。
小样本自然语言了解评介框架鉴于上述论断,本文为小样本自然语言了解提出一种更稳健且有效的评介框架,如算法 1 所示。
该评介框架中有两个要害设计选择,分别是如何建立数据拆分以及确定要害搜索超参数。如何建立数据拆分?本文首先提出数据拆分建立的三个要害指标: (1) 最终测试集小样本进修机能、 (2) 测试集和考证集关于一个超参数空间分布的相关性、以及 (3) 关于试验执行次数的稳定性。
鉴于此,本文对多种不同的数据拆分策略进行了量化试验和讨论,包括 (1) K 折交叉考证 (K-Fold CV)[2], (2) 最短描述距离(MDL)[2],(3) Bagging [9], (4) 随机采样策略 (5) 模型指导的拆分策略 (6) 以及本文提出的多次数据划分(Multi-Splits)。试验结果如表格 2、3 和图 1 所示。表格 2、3 的试验结果表明:从小样本机能和相关性看,多次数据划分 (Multi-Splits) 是比其他几个基准方案更好的数据拆分策略。
此外,由图 1 可知,Multi-Splits 的劣势还源于增大执行次数 K 的取值并不会对训练集和考证集的数据量产生影响,相反会进一步增加该结果的置信度,故试验过程中总可以选择尽可能增大 K 的取值。然而对于 CV 和 MDL,较大的 K 值会导致失败(Failure Mode),较小的 K 值导致高随机性不稳定的结果;同时在实践中很难先验地知道应该如何取值。故 Multi-Splits 是更具实际使用意义的数据拆分策略。小样本进修格式重新评介鉴于统一的评介框架下,本文对目前已有最先进的小样本进修格式进行重新评介。本文还尝试探索了多种不同小样本进修格式和技术组合可以实现的最佳机能(如表格 5 中的 “Our Best” 所示)。重新评介试验结果如表格所示。
重新评估结果可揭示如下要害论断:
论断 1: 小样本进修格式的绝对机能和相对机能差异,在先前文献中未被准确估计。此外小样本格式(例如 ADAPET)在像 DeBERTa 这样的大型模型上的劣势会显著降低。半监督小样本格式(例如 iPET 和 Noisy Student)增益在较大的模型也可以保持一致性。
论断 2: 不同小样本进修格式的增益在很大程度上是互补的。通过将目前各种先进格式加以组合,它们可以在很大程度上实现优于任意单一格式的小样本进修机能。目前最佳组合格式的小样本进修机能,接近 RoBERTa 上实现的全监督机能;然而和目前 DeBERTa 上实现的最优全监督机能相比,它仍然存在较大的差异性。
论断 3: 目前已有相关任务中不存在单一的小样本进修格式能够在大多数 NLU 任务上取得主导性劣势机能。这为未来进一步开发出具有跨任务一致性和鲁棒性的小样本进修格式提出新的挑战。
参考文献[1] Timo Schick and Hinrich Schütze. 2021b. It’s not just size that matters: Small language models are also few-shot learners. pages 2339–2352.[2] Ethan Perez, Douwe Kiela, and Kyunghyun Cho. 2021. True few-shot learning with language models. CoRR, abs/2105.11447.[3] Rakesh R. Menon, Mohit Bansal, Shashank Srivastava, and Colin Raffel. 2021. Improving and simplifying pattern exploiting training. CoRR, abs/2103.11955.[4] Timo Schick and Hinrich Schütze. 2021a. Exploiting cloze-questions for few-shot text classification and natural language inference. In EACL, pages 255–269. Association for Computational Linguistics.[5] Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, and Jie Tang. 2021b. GPT understands, too. CoRR, abs/2103.10385.[6] Qizhe Xie, Minh-Thang Luong, Eduard H. Hovy, and Quoc V. Le. 2020. Self-training with noisy student improves imagenet classification. In CVPR, pages 10684-10695. IEEE.[7] Tianyu Gao, Adam Fisch, and Danqi Chen. 2020. Making pre-trained language models better few-shot learners. CoRR, abs/2012.15723.[8] Tianyi Zhang, Felix Wu, Arzoo Katiyar, Kilian Q. Weinberger, and Yoav Artzi. 2020. Revisiting few-sample BERT fine-tuning. CoRR, abs/2006.05987.[9] Leo Breiman. 1996. Bagging predictors. Mach. Learn., 24(2):123–140.
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/26997